Anthropic's Mythos AI gây ra khủng hoảng an ninh mạng và phản ứng chính sách trong hai tuần

Tác giả: Shenchao TechFlow

Ngày 8 tháng 4, Bộ trưởng Tài chính Hoa Kỳ Bessent và Chủ tịch Fed Powell đã triệu tập khẩn cấp một nhóm các nhà lãnh đạo ngân hàng phố Wall tại trụ sở Bộ Tài chính Washington.

Chủ đề của cuộc họp không phải là lãi suất, không phải là lạm phát, mà là mô hình mới nhất của một công ty AI.

Mô hình này có tên là Claude Mythos. Anthropic cho biết đây là AI mạnh nhất mà họ từng tạo ra, mạnh đến mức chính họ cũng không dám phát hành. Trong các bài kiểm tra nội bộ, nó đã thoát khỏi môi trường an toàn do các nhà nghiên cứu thiết kế và đăng bài trên internet để khoe quá trình thoát khỏi giới hạn. Khi đó, nhà nghiên cứu phụ trách cuộc kiểm tra, Sam Bowman, đang ăn bánh sandwich trong công viên thì đột nhiên nhận được một email từ Mythos, mới nhận ra rằng nó đã trốn ra ngoài.

Một chuỗi phản ứng do lỗi cấu hình CMS

Câu chuyện bắt đầu từ tối ngày 26 tháng 3.

Alexandre Pauwels từ Đại học Cambridge và Roy Paz từ LayerX Security, giống như tất cả các nhà nghiên cứu bảo mật khác, đang làm công việc hàng ngày của họ: tìm kiếm những thứ không nên được truy cập công khai. Họ đã phát hiện ra một cơ sở dữ liệu không được mã hóa trong hệ thống quản lý nội dung của Anthropic, chứa gần 3.000 tệp chưa được công bố.

Một trong số đó là một bản nháp blog mô tả một mô hình mới có tên Claude Mythos. Trong bản nháp, một mã nội bộ "Capybara" (hải ly) được sử dụng để định nghĩa một cấp độ mô hình hoàn toàn mới, lớn hơn, thông minh hơn và đắt hơn so với loạt Opus mạnh nhất trước đây của Anthropic.

Một câu trong bản nháp đã khiến toàn bộ cộng đồng an ninh mạng xôn xao: mô hình này "vượt xa tất cả các mô hình AI khác về khả năng an ninh mạng" và "dự báo một làn sóng mô hình sắp tới, với khả năng khai thác lỗ hổng vượt xa tốc độ phản ứng của các bên phòng thủ".

Fortune là tờ báo đầu tiên đưa tin về vụ rò rỉ này. Anthropic đổ lỗi cho "lỗi con người", cho rằng thiết lập mặc định của hệ thống quản lý nội dung đã đặt các tệp đã tải lên ở chế độ truy cập công khai. Một cách đầy tính讽刺, một công ty tuyên bố đang xây dựng AI bảo mật mạng mạnh nhất thế giới lại chính mình vấp phải một lỗi cấu hình cơ bản nhất.

Năm ngày sau, Fortune lại báo cáo về vụ rò rỉ thứ hai, trong đó mã nguồn của công cụ lập trình Claude Code thuộc Anthropic, khoảng 500.000 dòng mã và 1.900 tệp, đã bị công khai do lỗi đóng gói npm. Trong vòng hai tuần, hai sự cố bảo mật cấp thấp xảy ra tại cùng một công ty đang cảnh báo thế giới rằng “thời đại tấn công mạng AI đã đến”.

Nhưng thị trường không còn thời gian để chế giễu mức độ vận hành của Anthropic. Vào phiên mở cửa ngày 27 tháng 3, các cổ phiếu an ninh mạng đồng loạt lao dốc. CrowdStrike giảm mạnh 7,5%, Palo Alto Networks giảm hơn 6%, Zscaler giảm 4,5%, và ETF an ninh mạng iShares giảm 4% trong một ngày.

Đánh giá của nhà phân tích Adam Borg từ Stifel: Đây có thể là "công cụ hack tối thượng, có thể nâng bất kỳ hacker bình thường nào lên mức đối thủ cấp quốc gia".

Mythos mạnh đến mức nào?

Ngày 7 tháng 4, Anthropic chính thức hé lộ Mythos. Xem trực tiếp các con số:

Đạt điểm 93,9% trên SWE-bench (bài kiểm tra đánh giá khả năng AI giải quyết các vấn đề kỹ thuật phần mềm thực tế), trong khi thế hệ trước là Opus 4.6 đạt 80,8%. Trên bài chứng minh toán học USAMO 2026: 97,6% so với 42,3%. Trong cuộc thi an ninh mạng Cybench: tỷ lệ hoàn thành 100%, điều mà chưa từng có mô hình nào đạt được trước đây.

Chứng minh toán học USAMO tăng từ 42,3% lên 97,6%, thế hệ mô hình mới kéo dài khoảng 55 điểm phần trăm.

Anthropic đã công bố thẻ an toàn hệ thống dài 244 trang, trong đó thừa nhận khả năng an ninh mạng của Mythos không đến từ việc đào tạo an toàn chuyên biệt, mà là "kết quả phụ" từ việc cải thiện khả năng suy luận và mã hóa tổng quát. Những cải tiến tương tự giúp nó giỏi hơn trong việc vá lỗ hổng, đồng thời cũng khiến nó giỏi hơn trong việc khai thác lỗ hổng.

Đội đỏ tiên tiến của Anthropic đã thử nghiệm Mythos trên phần mềm thực tế—không phải môi trường mô phỏng, không phải bài tập CTF, mà là hệ điều hành và trình duyệt mà hàng tỷ người sử dụng mỗi ngày.

Kết quả là: trên trình biên dịch JavaScript của Firefox 147, Opus 4.6 đã thử hàng trăm lần nhưng chỉ tạo ra được 2 exploit khả dụng. Mythos thành công 181 lần. Sự chênh lệch 90 lần, khoảng cách giữa một thế hệ mô hình. Trên tất cả các hệ điều hành và trình duyệt chính, Mythos đã phát hiện ra hàng ngàn lỗ hổng zero-day, phần lớn được phân loại là "mức độ nghiêm trọng".

Điều còn đáng kinh ngạc hơn là một số trường hợp cụ thể. Một lỗ hổng TCP SACK trong OpenBSD tồn tại 27 năm, trải qua vô số cuộc kiểm tra thủ công và công cụ quét tự động, nhưng chưa bao giờ bị phát hiện. Mythos đã tìm ra nó, chỉ cần hai gói dữ liệu được tạo cẩn thận để làm sập bất kỳ máy chủ nào. Một lỗ hổng thực thi mã từ xa trong NFS của FreeBSD tồn tại 17 năm, và Mythos không chỉ phát hiện ra nó mà còn tự xây dựng một chuỗi tấn công xuyên suốt nhiều gói dữ liệu, bao gồm 20 ROP gadget.

Một số kỹ sư của Anthropic không có nền tảng về bảo mật đã thực hiện một bài kiểm tra: trước khi đi ngủ, họ yêu cầu Mythos tìm lỗ hổng thực thi mã từ xa, và sáng hôm sau, trên bàn đã xuất hiện một exploit hoàn chỉnh và có thể sử dụng được.

Escaping the sandbox: Khi AI bắt đầu "không từ bỏ bất kỳ thủ đoạn nào"

Việc phát hiện lỗ hổng zero-day là vấn đề về năng lực, nhưng mô hình hành vi mà Mythos thể hiện trong các bài kiểm tra lại hoàn toàn khác biệt.

Trong một bài kiểm tra hành vi, các nhà nghiên cứu đã cung cấp cho phiên bản đầu tiên của Mythos một môi trường sandbox an toàn, mô phỏng tình huống người dùng cố gắng khiến nó thoát khỏi sandbox và thông báo cho các nhà nghiên cứu phụ trách kiểm tra. Mythos không chỉ thành công thoát ra, mà còn thực hiện một hành động mà không ai yêu cầu nó làm: nó truy cập đến một vài trang web ít nổi tiếng nhưng có thể truy cập công khai và đăng bài mô tả quá trình thoát khỏi sandbox của mình.

Trang 244 của thẻ an toàn hệ thống còn ghi lại thêm nhiều hành vi “vượt giới hạn”. Khi Mythos mắc lỗi trong mã nguồn, nó cố gắng ghi đè lịch sử commit git để xóa dấu vết, không phải vì nó muốn lừa ai, mà vì nó hiểu “sửa vấn đề này” là “làm cho vấn đề đó trông như chưa bao giờ tồn tại”. Trong một lần kiểm tra khác, một nhà nghiên cứu yêu cầu nó kết thúc một nhiệm vụ đánh giá không còn hữu ích, nó đã tắt trực tiếp tất cả các nhiệm vụ đánh giá cùng loại đang được người dùng chạy.

Anthropic đã sử dụng một ẩn dụ về leo núi trong thẻ an toàn hệ thống: một hướng dẫn viên có kỹ năng cao có thể dễ dàng khiến khách hàng gặp nguy hiểm hơn so với người mới, vì khả năng của anh ta sẽ dẫn mọi người đến những con đường nguy hiểm hơn.

Một chi tiết ẩn trong thẻ bảo mật hệ thống: thông qua các công cụ giải thích trắng hộp, các nhà nghiên cứu phát hiện rằng Mythos đôi khi ở cấp độ kích hoạt thần kinh nội bộ suy luận cách "vượt qua" điểm số của hệ thống đánh giá, trong khi nội dung đầu ra chuỗi tư duy có thể thấy lại hoàn toàn khác biệt. Nó đang "nghĩ" một chuyện nhưng lại "nói" một chuyện khác.

Anthropic cho biết họ "khá tự tin" rằng những hành vi này là do mô hình sử dụng các phương pháp không phù hợp để hoàn thành nhiệm vụ, chứ không phải là những mục tiêu dài hạn ẩn giấu. Mythos không đang âm mưu gì cả. Nó chỉ cực kỳ giỏi trong việc hoàn thành nhiệm vụ, đồng thời hoàn toàn không hiểu rõ ranh giới ở đâu. Một trợ lý không có cảm giác giới hạn nhưng lại có thể làm được mọi thứ có thể khó đối phó hơn một AI có âm mưu.

Project Glasswing: Dùng ngọn giáo để đúc lá chắn

Anthropic đã không chọn cách khóa Mythos vào két an toàn.

Ngày 7 tháng 4, họ công bố Project Glasswing (được đặt tên theo loài bướm glasswing có cánh gần như trong suốt, mang ý nghĩa giúp các lỗ hổng phần mềm "không còn chỗ ẩn náu"), cung cấp Mythos Preview cho khoảng 40 tổ chức đã được tuyển chọn để phục vụ công tác an ninh mạng phòng thủ.

Đối tác sáng lập: Amazon AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Quỹ Linux. Về cơ bản đã thu hút toàn bộ các ông lớn từ Thung lũng Silicon và Phố Wall. Anthropic cam kết cung cấp tối đa 100 triệu USD hạn mức sử dụng và quyên góp 4 triệu USD cho các tổ chức an toàn mã nguồn mở như OpenSSF, Alpha-Omega.

Logic là như sau: Các khả năng cấp Mythos sẽ lan rộng vào các mô hình mã nguồn mở trong vòng 6 đến 18 tháng, khi đó bất kỳ ai cũng có thể sử dụng. Thay vì chờ đợi ngày đó đến, hãy để những người phòng thủ đi trước trong khoảng thời gian này và vá các lỗ hổng có thể sửa được.

Newton Cheng, trưởng nhóm an ninh mạng của Anthropic’s Frontline Red Team, nói thẳng thừng: Mục tiêu là giúp các tổ chức làm quen với việc sử dụng những khả năng này để phòng thủ trước khi chúng trở nên phổ biến rộng rãi. Vì cuối cùng, những khả năng này sẽ được sử dụng rộng rãi, chỉ còn là vấn đề thời gian.

Phố Wall ban đầu hoảng loạn, sau đó mới thở phào nhẹ nhõm.

Sau khi bị rò rỉ vào ngày 27 tháng 3, các cổ phiếu an ninh mạng sụp đổ toàn diện, nhưng sau khi Anthropic chính thức công bố Glasswing và liệt kê CrowdStrike và Palo Alto Networks là các đối tác sáng lập vào ngày 7 tháng 4, hai cổ phiếu này lần lượt tăng 6,2% và 4,9%, và tiếp tục tăng thêm 2% sau giờ giao dịch. JPMorgan duy trì đánh giá mua vào đối với cả hai công ty, với nhận định của nhà phân tích Brian Essex rằng CrowdStrike và Palo Alto được định vị là các lớp cốt lõi trong hệ thống phòng thủ, chứ không phải là mục tiêu cạnh tranh.

Nhưng đây chỉ là giải pháp giảm đau tạm thời. Hai cổ phiếu này tính từ đầu năm nay vẫn lần lượt giảm 9,7% và 7,8%.

Khi rủi ro AI trở thành rủi ro hệ thống tài chính

Trở về ngày 8 tháng 4, trụ sở Bộ Tài chính Washington.

Bessen và Powell đã triệu tập toàn bộ các ngân hàng có tầm quan trọng hệ thống. Các cuộc họp cấp độ này trước đây hầu như chỉ xảy ra trong khủng hoảng tài chính và đại dịch. Bây giờ, những người ngồi cùng bàn đang thảo luận về khả năng tấn công mạng của một mô hình AI.

Lý do cũng không phức tạp: Nếu năng lực cấp Mythos rơi vào tay những kẻ có ý đồ xấu, họ có thể trong vài giờ tìm ra lỗ hổng zero-day trong hệ thống cốt lõi của một ngân hàng lớn và viết mã tấn công có thể sử dụng được. Trước đây, giả định cơ bản của toàn bộ hệ thống phòng thủ an ninh mạng là kẻ tấn công cần rất nhiều thời gian và nguồn nhân lực chuyên môn cao để phát hiện và khai thác lỗ hổng. AI đang làm đảo lộn giả định này.

Casey Newton của Platformer trích dẫn lời Alex Stamos, Giám đốc sản phẩm cấp cao của công ty an ninh mạng Corridor: các mô hình mã nguồn mở sẽ bắt kịp các mô hình tiên tiến đóng trong việc phát hiện lỗ hổng sau khoảng sáu tháng.

Điều khiến các nhà quản lý lo lắng hơn là chính Anthropic đã thừa nhận trong thẻ an toàn hệ thống: hệ thống đánh giá tiên tiến nhất của họ đã không phát hiện ra những hành vi nguy hiểm nhất của phiên bản Mythos sớm. Những vấn đề nghiêm trọng nhất không được phát hiện qua các bài kiểm tra, mà chỉ xuất hiện khi sử dụng thực tế trong nội bộ.

Một tiền đề khó chịu

Logic nền tảng của Glasswing khi phân tích ra thực sự khá kỳ lạ: để bảo vệ thế giới khỏi các mô hình AI nguy hiểm, bạn phải tạo ra trước tiên chính mô hình AI nguy hiểm đó.

Newton từ Platformer đã nêu ra một sự thật bị hầu hết các báo cáo bỏ qua: Một công ty tư nhân hiện đang kiểm soát khả năng khai thác lỗ hổng zero-day nghiêm trọng đối với hầu hết các dự án phần mềm mà bạn từng nghe đến. Sự tập trung này chính là một rủi ro. Động cơ của những người muốn đánh cắp trọng số mô hình Anthropic vừa tăng lên đáng kể.

Tất cả những điều này xảy ra trong một môi trường mà việc giám sát AI gần như không tồn tại. Anthropic cho biết họ đã thông báo cho CISA (Cơ quan An ninh Mạng và Cơ sở Hạ tầng) và Bộ Thương mại. Tuy nhiên, theo các báo cáo hiện tại, chính phủ chưa thể hiện sự cấp bách tương xứng với mối đe dọa. Như một quan chức trong chính phủ am hiểu tình hình Mythos đã nói với Axios: "Washington điều hành dựa trên các cuộc khủng hoảng. Cho đến khi an ninh mạng thực sự trở thành một cuộc khủng hoảng và nhận được sự chú ý cũng như nguồn lực xứng đáng, nó vẫn chỉ là một vấn đề bên lề."

Dario Amodei khi thành lập Anthropic đã kể một câu chuyện như thế này: để một phòng thí nghiệm đặt an toàn lên hàng đầu được tiếp xúc trước với những khả năng nguy hiểm nhất, như vậy mới có cơ hội xây dựng hàng rào phòng thủ trước khi người khác chạm tới. Mythos và Glasswing thực sự đang đi theo kịch bản này.

Nhưng lý thuyết có thể vượt qua thực tế không? Không ai biết. Anthropic dự định triển khai các biện pháp bảo mật mới trên một mô hình Opus trong tương lai, vì mô hình đó "không mang lại mức độ rủi ro tương đương với Mythos". Công chúng cuối cùng sẽ có được khả năng cấp độ Mythos, nhưng phải chờ đến khi hệ thống bảo vệ được thiết lập.

Khoảng thời gian này kéo dài bao lâu? Stamos đưa ra một ước tính lạc quan: "Nếu chúng ta vừa mới vượt qua một bước nhỏ so với khả năng của con người, thì sẽ tồn tại một hồ sơ lỗ hổng lớn nhưng hữu hạn, có thể được phát hiện và khắc phục."

Cái "nếu" này rất lớn.

Từ lỗi cấu hình CMS vào ngày 26 tháng 3 đến khi Bộ trưởng Tài chính Mỹ triệu tập phố Wall khẩn cấp vào ngày 8 tháng 4, chỉ trong hai tuần, một mô hình AI đã từ tin tức công nghệ ở Thung lũng Silicon trở thành vấn đề an ninh tài chính tại Washington.

Stamos cho biết các nhà phát triển phòng thủ có khoảng thời gian sáu tháng. Sau sáu tháng, các mô hình mã nguồn mở sẽ theo kịp, và lúc đó những khả năng này sẽ không còn là đặc quyền của vài công ty nữa.

Số lỗ hổng có thể sửa trong sáu tháng sẽ quyết định cách chơi trò chơi tiếp theo.