Anthropic công bố mô hình AI Mythos quá mạnh mẽ để phát hành công khai

Tôi cảm thấy rằng loài người có thể đang bị AI đuổi kịp với tốc độ vượt xa nhận thức thông thường.

Tôi không biết hiện trạng của các bạn thế nào, nhưng ít nhất hiện tại tôi đã hoàn toàn không thể thiếu AI, ít nhất 50% công việc hàng ngày của tôi được hỗ trợ bởi AI.

Hơn nữa, tỷ lệ này vẫn đang tiếp tục tăng lên.

Meanwhile, with each new generation of models being released, both my work efficiency and quality, as well as my monthly spending on tokens, are growing rapidly.

Tối qua tôi đã xem một tin tức, Anthropic đã phát hành một mô hình mà ngay cả chính họ cũng không dám công khai cho tất cả mọi người sử dụng, vì nó thực sự quá mạnh.

Tên của mô hình mới là «Mythos», có nghĩa là «thần thoại» trong tiếng Trung.

Hiện đang ở phiên bản xem trước, nên chính thức nó được gọi là “Mythos Preview”. Tuy nhiên, lần này nó được ra mắt dưới dạng một dự án có tên “Project Glasswing”.

Tôi sẽ nói về dự án này sau.

Mythos

Tháng trước, một tài liệu nội bộ của Anthropic đã bị rò rỉ vô tình, trong đó đề cập đến việc đang phát triển một mô hình lớn hơn và mạnh hơn Opus, với mã hiệu là Mythos.

Sau đó, Anthropic đã quy trách nhiệm cho sự rò rỉ này là do "lỗi con người" và không đưa thêm lý do nào khác.

Bây giờ, mô hình có mã tên Mythos đã chính thức được công bố.

Mặc dù đã được thông báo chính thức, nhưng nó chưa được phát hành chính thức. Nói cách khác, người dùng thông thường vẫn chưa thể sử dụng.

Lý do rất đơn giản: Anthropic cảm thấy mô hình này quá mạnh mẽ và không phù hợp để mở rộng cho tất cả mọi người trước khi các cơ chế bảo mật được triển khai đầy đủ.

I think this sentence is worth pausing to think about for a second.

Thông thường, một công ty AI khi ra mắt mô hình mới sẽ cố gắng上线 ngay lập tức để chiếm lĩnh thị trường, nhưng lần này cách làm của Anthropic rõ ràng có chút bất thường.

Theo tôi, không phải họ không muốn phát, mà là họ dám không phát.

Vì mô hình có tên Mythos này thực sự rất mạnh mẽ.

Hãy xem một vài dữ liệu kiểm tra do chính thức công bố.

Về khả năng mã hóa, Mythos có khoảng cách đáng kể so với Claude Opus 4.6 – mô hình mạnh nhất hiện đang được công khai, và trong mọi bài kiểm tra chuẩn, Mythos đều vượt trội hoàn toàn Opus 4.6.

Mythos

Về khả năng suy luận, trong bài kiểm tra GPQA Diamond (câu hỏi khoa học cấp độ sau đại học), kết quả là 94,6% so với 91,3%, Mythos chiến thắng.

Trong cả bài kiểm tra có công cụ và không công cụ tại Humanity's Last Exam, Mythos đều chiến thắng tuyệt đối.

Mythos

Về khả năng thao tác máy tính liên quan đến Agent, OSWorld-Verified (tự hoàn thành nhiệm vụ máy tính), Mythos đạt 79,6%, vượt qua Oputs 4.6 ở mức 72,7%.

Trên mỗi chiều, Mythos đều vượt trội hơn Opus 4.6, một số thậm chí vượt xa một cách áp đảo.

Mythos

Trên một số nhiệm vụ, khoảng cách đã không còn là những bước cải tiến nhỏ, mà là sự bứt phá lớn. Ví dụ, SWE-bench Multimodal tăng từ 27,1% lên 59%, gần như gấp đôi.

Một trong những lý do cốt lõi khiến họ không dám上线 Mythos là khả năng vượt qua các hàng rào bảo mật trong thế giới phần mềm của nó quá mạnh mẽ.

Nói một cách đơn giản, tất cả các hệ thống và phần mềm trên toàn thế giới đều có lỗ hổng, và Mythos có thể phát hiện và khai thác những lỗ hổng này ở mức độ vượt trội hơn con người.

Giả sử khả năng này rơi vào tay tin tặc, toàn bộ hệ điều hành và phần mềm trên toàn thế giới sẽ bị ảnh hưởng, đặc biệt là một số cơ sở hạ tầng công cộng và an ninh quốc gia.

Anthropic có một câu trong thông báo, sau khi đọc xong, tôi cảm thấy vô cùng đáng sợ.

Mythos

The encoding capability of AI models has reached an extremely high level, and in discovering and exploiting software vulnerabilities, they can almost surpass everyone except the most skilled humans.

Về câu này, tôi muốn mở rộng thêm một chút.

Tôi xuất thân là lập trình viên, nên tôi biết phần mềm được xây dựng như thế nào và sự khác biệt giữa mã nguồn do những người khác nhau viết ra lớn đến đâu.

Ngoài ra, không có phần mềm nào dám tự nhận là không có lỗ hổng, ngay cả khi lỗ hổng đó chưa bao giờ được phát hiện.

Lỗ hổng trước đây có thể nằm yên trong hệ thống suốt vài chục năm không phải vì hệ thống đủ an toàn.

Nhưng việc tìm lỗ hổng đòi hỏi năng lực chuyên môn cực cao, sự kiên nhẫn và năng lượng lớn, cùng với rất nhiều thời gian.

Người tham gia quá ít, người dám đầu tư càng ít hơn.

Sự khan hiếm “năng lực” này tạo thành tiền đề ngầm của toàn bộ thế giới an ninh phần mềm. Sau khi AI can thiệp, tiền đề này bắt đầu lung lay.

AI có thể hoạt động với năng lực vượt trội hơn đa số con người không phải là đỉnh cao, và chúng ta có thể sử dụng nó để khai thác lỗ hổng, cũng như để vá lỗ hổng.

Để giải quyết vấn đề này, tôi sẽ nói tiếp về Project Glasswing mà Anthropic đang thực hiện.

Nói đơn giản, đây là một dự án sử dụng khả năng của Mythos để tìm lỗi cho các hệ thống cơ sở hạ tầng trên toàn thế giới.

Các bên tham gia bao gồm AWS, Apple, Microsoft, Google, NVIDIA, Cisco, Linux Foundation và tổng cộng 12 tổ chức.

Mythos

Dàn ý này bao gồm điện toán đám mây, hệ điều hành, chip, trình duyệt, cơ sở hạ tầng tài chính, an ninh mạng và hệ sinh thái mã nguồn mở.

Nói cách khác, hầu hết các bên tham gia chính trong cơ sở hạ tầng kỹ thuật số toàn cầu đều có mặt trong dự án này.

Logic cốt lõi của dự án chỉ có một điều: để đội phòng thủ sử dụng khả năng của mô hình AI cấp cao này ngay từ đầu.

Vì nếu bên tấn công trước tiên có được các công cụ cấp độ tương đương, thì cửa sổ này một khi mở ra sẽ rất khó đóng lại. Anthropic cam kết cung cấp 100 triệu USD hạn mức sử dụng mô hình, bao gồm giai đoạn xem trước nghiên cứu.

Ngoài 12 tổ chức cốt lõi, còn có hơn 40 tổ chức duy trì cơ sở hạ tầng phần mềm then chốt được cấp quyền truy cập để quét hệ thống và các dự án mã nguồn mở của họ bằng Mythos.

Đồng thời, Anthropic đã quyên góp 2,5 triệu USD cho Quỹ Linux và 1,5 triệu USD cho Quỹ Phần mềm Apache, cả hai đều là cơ sở hạ tầng của thế giới phần mềm.

Nói một cách đơn giản, các ứng dụng, trang web và hệ thống mà chúng ta đang sử dụng hiện nay đều dựa trên nền tảng hạ tầng của họ.

Theo tôi, lần này Anthropic đã làm một việc tốt khi không chỉ ra mắt mô hình mạnh hơn mà còn chi tiền để cải thiện cơ sở hạ tầng thông tin toàn cầu.

After all, going naked benefits no one.

Có thể đến đây bạn vẫn chưa cảm nhận được Mythos mạnh đến mức nào, nhưng tôi đã tìm thấy ba ví dụ cụ thể từ văn bản chính thức, và tôi nghĩ chúng minh họa rõ ràng hơn con số.

Mythos

Đầu tiên, OpenBSD.

Đây là hệ điều hành được công nhận là có độ an toàn cực cao, nhiều cơ sở hạ tầng then chốt chạy trên nó, bao gồm hệ điều hành iOS của điện thoại Apple mà chúng ta sử dụng, hệ điều hành Android và thậm chí một số hệ thống nội bộ của doanh nghiệp và tổ chức.

Mythos đã phát hiện một lỗ hổng tồn tại 27 năm, kẻ tấn công chỉ cần kết nối vào máy mục tiêu là có thể khiến nó sập từ xa.

27 năm! Không phải không ai quan tâm, mà là hoàn toàn không ai tìm thấy.

Thứ hai, FFmpeg.

Hầu hết các phần mềm cần xử lý video đều phụ thuộc vào nó, và hầu hết các phần mềm phát video bạn sử dụng đều có sự hiện diện của nó.

Một lỗ hổng ẩn mình trong dòng mã được viết cách đây 16 năm, công cụ kiểm thử tự động đã tấn công liên tục 5 triệu lần nhưng đều không phát hiện ra.

Tuy nhiên, Mythos đã tìm thấy.

Thứ ba, nhân Linux.

This doesn't need much explanation—it's essentially the infrastructure of the entire internet and the most worthy of caution.

Mythos không chỉ phát hiện ra một vài lỗ hổng riêng lẻ, mà còn nối kết nhiều lỗ hổng thành một chuỗi tấn công.

Bắt đầu từ quyền người dùng thông thường, tăng quyền dần dần, cuối cùng đạt được quyền kiểm soát hoàn toàn toàn bộ máy tính.

Về Linux, điều này hoàn toàn khác với hai trường hợp trước.

Tìm lỗ hổng là khả năng phân tích.

Nhưng lỗ hổng chuỗi, đó là khả năng chiến lược.

Giống như nhiều sản phẩm quản lý, việc vẽ bản phác thảo, viết tài liệu và phân tích dữ liệu là những kỹ năng đơn lẻ. Nhưng việc kết nối nghiệp vụ, sản phẩm và thương mại lại với nhau mới là năng lực chiến lược.

Một mô hình có thể lập kế hoạch đường tấn công đã không còn chỉ là công cụ kiểm toán, mà gần như là một tác nhân chủ động có thể hành động trong môi trường số.

Trong ba trường hợp trên, Anthropic đều áp dụng phương pháp phát hiện trước, báo cáo trước, sửa chữa trước và sau đó mới công bố, hiện tất cả đã được khắc phục.

Đến đây, bạn đã hiểu Mythos mạnh mẽ đến mức nào—giống như một con thú dữ đang bị giam trong lồng và chưa được thả ra, thế giới thực cần chuẩn bị sẵn sàng để thích nghi với nó.

Tôi muốn chia sẻ một vài quan sát ở đây, có lẽ cũng là khởi đầu của những thay đổi thực sự sắp tới.

Đầu tiên, các giả định bảo mật trong thế giới phần mềm đang mất hiệu lực.

Sự ổn định của phần mềm mà chúng ta thường xuyên trải qua ngày nay không hoàn toàn đến từ thiết kế hệ thống đủ tốt. Phần lớn, nó phụ thuộc vào sự khan hiếm của khả năng tấn công.

Nói một cách đơn giản, không phải phần mềm đủ mạnh, mà là con người chưa đủ mạnh.

Việc tìm kiếm lỗ hổng tốn chi phí, xây dựng chuỗi khai thác mất thời gian, và quét quy mô lớn cần tài nguyên. Vì vậy, nhiều nợ kỹ thuật, lỗi cũ kỹ và hệ thống lỗi thời vẫn tồn tại mà chưa từng được dọn dẹp nghiêm túc.

Giống như khi chúng tôi phát triển sản phẩm, việc chúng tôi cảm thấy logic đã khép kín và không còn vấn đề gì không có nghĩa là mọi thứ đã hoàn toàn an toàn; rất có thể chúng tôi đã chạm đến giới hạn năng lực của mình.

Khả năng mà Mythos thể hiện là đã thu hẹp khoảng thời gian từ khi lỗ hổng được phát hiện đến khi bị khai thác từ vài tháng trước đây xuống còn vài phút.

What does a few minutes mean?

Điều này có nghĩa là nhịp độ vá lỗi và quy trình sửa chữa đã bắt đầu không theo kịp tốc độ của các cuộc tấn công.

Thứ hai, thế giới mã nguồn mở sẽ cảm nhận được áp lực đầu tiên.

Hầu hết các phần mềm hiện đại ngày nay đều dựa trên một lượng lớn phụ thuộc mã nguồn mở. Khi không bị phát hiện, chúng ta không thấy chúng, nhưng một khi bị xâm phạm, toàn bộ ngành công nghiệp sẽ cùng lúc chịu ảnh hưởng.

Có thể một số độc giả chưa hiểu rõ logic này, nói một cách đơn giản là tất cả các phần mềm chúng ta đang sử dụng hiện nay đều dựa trên các dự án mã nguồn mở, và mã nguồn của những dự án này có thể được mọi người xem thấy.

Sau này, khi mô hình có thể quét liên tục và quy mô lớn các dự án nguồn mở, áp lực mà các nhà duy trì cộng đồng nguồn mở phải đối mặt sẽ hoàn toàn khác biệt.

Đó cũng là lý do Anthropic tài trợ cho Quỹ Linux và Quỹ Apache.

Không phải làm từ thiện, mà là thừa nhận rằng cơ sở hạ tầng mã nguồn mở là nền tảng yếu nhất và cũng không thể sụp đổ nhất của toàn bộ thế giới kỹ thuật số trong thời đại AI, họ chỉ không muốn bị coi là kẻ xấu.

Thứ ba, con người sẽ bị suy yếu, AI bắt đầu đấu trí với AI.

Trước đây, giá trị của đội ngũ an toàn sản phẩm internet nằm ở khả năng phán đoán, kinh nghiệm tích lũy và sự hiểu biết sâu sắc về hệ thống.

Trong tương lai, chuyện này sẽ thay đổi logic.

Đó là cuộc so sánh giữa ai có mô hình mạnh hơn, ai tích hợp công cụ nhanh hơn, và ai có thể lồng ghép kiểm toán AI vào giai đoạn đầu tiên của quy trình phát triển.

Đây không phải là vấn đề lập trình viên bị thay thế, mà là cách thức sản xuất của chính ngành an ninh sẽ được tái cấu trúc.

Ở phía bên kia, hàng ngàn lỗ hổng nghiêm trọng có thể được phát hiện trong vài tuần. Vấn đề là kẻ tấn công cuối cùng cũng sẽ có công cụ tương đương.

Lúc đó, an toàn của sản phẩm phần mềm sẽ không còn là cuộc đối đầu giữa người với người, mà là cuộc đấu trí giữa các mô hình.

Lần này, Anthropic không chỉ công bố khả năng mà còn công bố rủi ro. Có lẽ đó là sự trung thực mà toàn ngành đang cần thấy ở giai đoạn hiện tại.

Mọi người đều đang nói về cách AI thay đổi hiệu suất làm việc, điều này không có gì sai.

Nhưng Mythos cũng đang nhắc nhở chúng ta rằng, sự bứt phá trong khả năng AI cuối cùng sẽ lan truyền từ thế giới nội dung sang thế giới phần mềm, rồi đến toàn bộ hạ tầng số.

Thế giới nội dung đã được viết lại, ảnh hưởng đến logic lưu lượng truy cập.

Thế giới phần mềm đã được viết lại, động đến nền tảng.

Lúc này, tôi nhớ đến một câu thoại trong phim “2012”, cũng xin dùng nó để kết thúc bài viết này.

Dù bạn là ai, không phân biệt chủng tộc, không phân biệt quốc gia, ngày mai chúng ta đều không có sự khác biệt!

Bài viết này đến từ tài khoản chính thức WeChat "Tang Ren" (ID: RyanTang007), tác giả: Tang Ren