Anthropic quyết định không công khai phát hành mô hình AI Mythos do rủi ro an ninh mạng

Biên tập viên: Khi một công ty AI chọn không đưa mô hình mạnh nhất ra công chúng, điều đó đã nói lên tất cả.

Mythos của Anthropic đã có thể tự thực hiện toàn bộ quy trình tấn công. Từ việc phát hiện lỗ hổng zero-day, viết mã khai thác, đến kết nối nhiều bước để xâm nhập vào hệ thống cốt lõi—những công việc trước đây đòi hỏi sự hợp tác kéo dài của các hacker hàng đầu đã được rút ngắn xuống mức giờ hoặc thậm chí phút.

Đó cũng là lý do ngay khi mô hình được công bố, Scott Bessent và Jerome Powell đã triệu tập các tổ chức phố Wall họp, yêu cầu sử dụng nó để “tự kiểm tra”. Khi khả năng phát hiện lỗ hổng được giải phóng quy mô lớn, hệ thống tài chính không còn đối mặt với các cuộc tấn công rải rác, mà là việc quét liên tục.

Sự thay đổi sâu sắc hơn nằm ở cấu trúc cung cấp. Trước đây, việc phát hiện lỗ hổng phụ thuộc vào kinh nghiệm tích lũy của một số ít nhóm an ninh và hacker, với nhịp độ chậm và không thể sao chép. Hiện nay, khả năng này bắt đầu được các mô hình đầu ra hàng loạt, làm giảm cả ngưỡng tấn công lẫn phòng thủ. Một người trong cuộc đã đưa ra một ẩn dụ rất trực tiếp: giao mô hình cho hacker bình thường tương đương với việc trang bị cho họ khả năng tác chiến đặc biệt.

Các tổ chức đã bắt đầu sử dụng cùng các công cụ này để kiểm tra ngược lại hệ thống của chính họ. JPMorgan Chase, Cisco Systems và các công ty khác đang thử nghiệm nội bộ, mong muốn vá các lỗ hổng trước khi chúng bị khai thác. Nhưng những ràng buộc thực tế vẫn không thay đổi: tốc độ phát hiện đang tăng lên, trong khi việc sửa chữa vẫn chậm chạp. “Chúng ta rất giỏi trong việc tìm ra lỗ hổng, nhưng lại không giỏi trong việc sửa chữa,” nhận định của Jim Zemlin đã chỉ ra sự không đồng bộ trong nhịp độ.

Thực tế, vì Mythos không phải là sự nâng cao năng lực đơn lẻ, mà là tích hợp, tăng tốc và giảm rào cản sử dụng các khả năng tấn công vốn phân tán và bị hạn chế. Khi thoát khỏi môi trường kiểm soát, khả năng này sẽ lan truyền theo cách nào chưa có kinh nghiệm nào để tham khảo.

Nguy hiểm không nằm ở việc nó có thể làm gì, mà nằm ở việc ai có thể sử dụng nó và trong điều kiện nào.

Dưới đây là bản gốc:

Vào một buổi tối ấm áp tháng Hai, trong lúc nghỉ giải lao giữa đám cưới ở Bali, Nicholas Carlini tạm rời khỏi sự kiện, mở laptop ra và chuẩn bị “gây chút rắc rối”. Lúc đó, Anthropic vừa mới mở rộng mô hình trí tuệ nhân tạo mới có tên Mythos để đánh giá nội bộ, và nhà nghiên cứu AI nổi tiếng này đang muốn xem nó có thể gây ra bao nhiêu rắc rối.

Công việc Carlini được Anthropic thuê là thực hiện “kiểm tra áp lực” đối với các mô hình AI của chính họ, đánh giá liệu tin tặc có thể sử dụng chúng để thực hiện các hoạt động gián điệp, trộm cắp hoặc phá hoại hay không. Trong lúc tham dự lễ cưới ở Bali, Carlini đã bị ấn tượng mạnh bởi khả năng của mô hình này.

Trong vài giờ ngắn ngủi, anh ta đã tìm ra nhiều kỹ thuật có thể sử dụng để xâm nhập vào các hệ thống phổ biến toàn cầu. Sau khi trở về văn phòng của Anthropic ở trung tâm thành phố San Francisco, anh ta còn phát hiện thêm: Mythos đã có khả năng tự tạo ra các công cụ xâm nhập mạnh mẽ, thậm chí bao gồm cả các phương pháp tấn công nhắm vào Linux — nền tảng hỗ trợ phần lớn các hệ thống mã nguồn mở trong hệ thống tính toán hiện đại.

Mythos đã thực hiện một vụ "cướp ngân hàng số": nó có thể bypass các giao thức bảo mật, xâm nhập vào hệ thống mạng qua cửa chính, sau đó phá vỡ kho tiền kỹ thuật số để chiếm đoạt tài sản trực tuyến. Trước đây, AI chỉ có thể "đục khóa", nhưng giờ đây, nó đã có khả năng lên kế hoạch và thực hiện trọn vẹn một vụ "cướp".

Carlini và một số đồng nghiệp bắt đầu gửi cảnh báo nội bộ đến công ty về những phát hiện của họ. Đồng thời, họ gần như hàng ngày đều phát hiện ra các lỗ hổng nghiêm trọng đến mức nguy hiểm chết người trong các hệ thống mà Mythos phát hiện—những vấn đề này thường chỉ những hacker hàng đầu toàn cầu mới có khả năng khai thác.

Mythos

Đồng thời, một nhóm nội bộ của Anthropic có tên “Frontier Red Team” – gồm 15 nhân viên được gọi là “Ants” – cũng đang thực hiện các bài kiểm tra tương tự. Nhiệm vụ của nhóm này là đảm bảo các mô hình của công ty không bị sử dụng để gây hại cho con người. Họ sẽ mang robot chó vào kho, cùng các kỹ sư kiểm tra xem chatbot có thể bị sử dụng để kiểm soát những thiết bị này một cách độc hại hay không; đồng thời hợp tác với các nhà sinh học để đánh giá liệu mô hình có thể bị sử dụng để chế tạo vũ khí sinh học hay không.

Lần này, họ dần nhận ra rằng rủi ro lớn nhất mà Mythos mang lại đến từ lĩnh vực an ninh mạng. “Chỉ trong vài giờ sau khi nhận được mô hình, chúng tôi đã biết nó khác biệt,” Logan Graham, người phụ trách nhóm này, cho biết.

Mô hình trước đó, Opus 4.6, đã thể hiện khả năng hỗ trợ con người khai thác lỗ hổng phần mềm. Nhưng Graham chỉ ra rằng Mythos hiện đã có thể “tự mình” khai thác những lỗ hổng này. Điều này tạo ra rủi ro ở cấp độ an ninh quốc gia, và ông đã cảnh báo ban lãnh đạo công ty dựa trên điều này. Điều này khiến ông phải đối mặt với một tình thế nan giải: giải thích với ban quản lý rằng động lực doanh thu quan trọng tiếp theo của công ty có thể quá nguy hiểm để phát hành cho công chúng.

Jared Kaplan, đồng sáng lập và giám đốc khoa học của Anthropic, cho biết trong quá trình huấn luyện Mythos, anh đã theo dõi tiến độ của nó “rất sát sao”. Đến tháng Một, anh bắt đầu nhận ra rằng khả năng của mô hình trong việc phát hiện lỗ hổng hệ thống là đặc biệt mạnh mẽ. Là một nhà vật lý lý thuyết, Kaplan cần xác định xem những khả năng này chỉ là “hiện tượng thú vị về mặt kỹ thuật” hay là “vấn đề thực tế có liên quan mật thiết đến cơ sở hạ tầng internet”. Cuối cùng, anh kết luận rằng đó là trường hợp sau.

Mythos

Trong khoảng một đến hai tuần vào cuối tháng Hai đến đầu tháng Ba, Kaplan và đồng sáng lập Sam McCandlish đã cân nhắc liệu có nên phát hành mô hình này hay không.

Vào tuần đầu tiên của tháng 3, đội ngũ cấp cao của công ty — bao gồm CEO Dario Amodei, Tổng giám đốc Daniela Amodei, CIO Vitaly Gudanets và những người khác — đã tổ chức cuộc họp để nghe báo cáo từ Kaplan và McCandlish.

Kết luận của họ là: Mythos có rủi ro quá cao, không phù hợp để phát hành rộng rãi. Tuy nhiên, Anthropic vẫn nên cho phép một số công ty, thậm chí cả đối thủ cạnh tranh, thử nghiệm nó.

“Chúng tôi nhanh chóng nhận ra rằng lần này cần phải áp dụng một cách tiếp cận hoàn toàn khác biệt, đây sẽ không phải là một đợt ra mắt sản phẩm thông thường,” Kaplan cho biết.

Đến tuần đầu tiên của tháng 3, công ty đã đạt được sự đồng thuận cuối cùng: phê duyệt việc triển khai Mythos như một công cụ phòng thủ an ninh mạng.

Mythos

Phản ứng của thị trường gần như ngay lập tức. Ngay trong ngày Anthropic công khai sự tồn tại của Mythos, Bộ trưởng Tài chính Mỹ Scott Bessent và Chủ tịch Fed Jerome Powell đã triệu tập các nhà lãnh đạo của các tổ chức chính trên Phố Wall đến họp khẩn tại Washington. Thông điệp được truyền đạt rất rõ ràng: ngay lập tức sử dụng Mythos để tìm ra các lỗ hổng trong hệ thống của các bạn.

The seriousness of the meeting was evident, according to individuals close to the attending executives (who requested anonymity due to the private nature of the discussions)—attendees even refused to disclose the meeting details to some key advisors.

Cảnh báo khẩn cấp từ các quan chức Nhà Trắng về tiềm năng của Mythos như một công cụ tấn công mạng, cùng với lập trường đề xuất “sử dụng nó để phòng thủ”, đều chỉ ra một sự thay đổi sâu sắc hơn: trí tuệ nhân tạo đang nhanh chóng trở thành lực lượng quyết định trong lĩnh vực an ninh mạng. Anthropic đã giới hạn việc cung cấp Mythos cho một số tổ chức trong dự án “Project Glasswing”, bao gồm các doanh nghiệp như Amazon Web Services, Apple và JPMorgan Chase, để họ thực hiện kiểm thử; đồng thời, các cơ quan chính phủ cũng đã thể hiện sự quan tâm lớn.

Trước khi mở cửa cho công chúng, Anthropic đã báo cáo đầy đủ về khả năng của bản xem trước Mythos cho các quan chức cấp cao của chính phủ Mỹ, bao gồm các tiềm năng sử dụng trong cả tấn công và phòng thủ mạng. Đồng thời, công ty cũng đang duy trì các cuộc trao đổi liên tục với chính phủ của nhiều quốc gia. Một nhân viên của Anthropic, do liên quan đến các vấn đề nội bộ nên yêu cầu ẩn danh, đã tiết lộ thông tin này.

Đối thủ cạnh tranh OpenAI cũng nhanh chóng bắt kịp, công bố vào thứ Ba rằng họ sẽ ra mắt một công cụ để phát hiện lỗ hổng phần mềm có tên GPT-5.4-Cyber.

Trong các bài kiểm tra phiên bản đầu tiên, các nhà nghiên cứu đã phát hiện ra hàng chục trường hợp hành vi "gây lo ngại", bao gồm không tuân theo lệnh của con người và thậm chí trong một số rất ít trường hợp, cố gắng che giấu hành vi của mình sau khi vi phạm lệnh.

Hiện tại, Anthropic chưa chính thức công bố Mythos như một công cụ an ninh mạng, và các nhà nghiên cứu bên ngoài cũng chưa xác minh đầy đủ khả năng của nó. Tuy nhiên, quyết định hiếm hoi trước đây của công ty về việc “hạn chế truy cập” phản ánh một sự đồng thuận ngày càng gia tăng trong ngành và trong chính phủ: AI đang tái cấu trúc nền kinh tế an ninh mạng—nó làm giảm đáng kể chi phí phát hiện lỗ hổng, thu hẹp thời gian chuẩn bị cho các cuộc tấn công và hạ thấp rào cản kỹ thuật đối với một số loại hình tấn công.

Anthropic cũng cảnh báo rằng khả năng hành động tự chủ mạnh mẽ hơn của Mythos chính là nguồn rủi ro. Trong các bài kiểm tra, nhóm đã quan sát thấy nhiều trường hợp đáng lo ngại: mô hình không tuân theo lệnh, thậm chí cố gắng che giấu dấu vết sau khi vi phạm. Trong một sự kiện, mô hình tự thiết kế một chuỗi tấn công đa bước để "thoát ra" khỏi môi trường bị hạn chế, giành quyền truy cập rộng hơn vào internet và chủ động đăng tải nội dung.

Trong thế giới thực, các phần mềm được sử dụng từ ứng dụng ngân hàng đến hệ thống bệnh viện thường chứa các lỗ hổng mã phức tạp và ẩn giấu, những vấn đề này thường cần chuyên gia tốn vài tuần甚至 vài tháng để phát hiện. Nếu tin tặc khai thác những lỗ hổng này trước, chúng có thể gây ra rò rỉ dữ liệu hoặc các cuộc tấn công phần mềm tống tiền, dẫn đến hậu quả nghiêm trọng.

Tuy nhiên, nhiều nhân vật quan trọng đã đặt câu hỏi về năng lực thực sự của Mythos và các rủi ro tiềm ẩn của nó. Tư vấn AI của Nhà Trắng, David Sacks, cho biết trên nền tảng mạng xã hội X: “Ngày càng nhiều người bắt đầu nghi ngờ liệu Anthropic có phải là ‘cậu bé nói dối’ trong ngành AI hay không. Nếu mối đe dọa mà Mythos mang lại cuối cùng không xảy ra, công ty sẽ đối mặt với vấn đề uy tín nghiêm trọng.”

Nhưng thực tế là các tin tặc đã bắt đầu sử dụng các mô hình ngôn ngữ lớn để thực hiện các cuộc tấn công phức tạp. Ví dụ, một tổ chức gián điệp mạng từng sử dụng mô hình Claude của Anthropic để cố gắng xâm nhập khoảng 30 mục tiêu; các kẻ tấn công khác sử dụng AI để đánh cắp dữ liệu từ các cơ quan chính phủ, triển khai phần mềm tống tiền, thậm chí nhanh chóng phá vỡ hàng trăm công cụ tường lửa được sử dụng để bảo vệ dữ liệu.

Theo một nguồn tin am hiểu, các quan chức liên quan đến an ninh quốc gia Mỹ cho rằng sự xuất hiện của Mythos đang tạo ra mức độ không chắc chắn chưa từng có – việc đánh giá rủi ro an ninh mạng trở nên khó khăn hơn bao giờ hết. Nếu giao mô hình này cho các tin tặc cá nhân, hiệu quả của nó có thể tương đương với việc nâng một binh sĩ bình thường lên thành binh sĩ lực lượng đặc nhiệm.

Đồng thời, mô hình này cũng có thể trở thành “bộ khuếch đại năng lực”: giúp một tổ chức tin tặc phạm tội sở hữu khả năng tấn công tương đương với một quốc gia nhỏ, đồng thời cho phép các tin tặc tình báo và quân sự của một số quốc gia vừa và nhỏ thực hiện các cuộc tấn công mạng vốn chỉ có các cường quốc mới có thể thực hiện.

Rob Joyce, cựu giám đốc an ninh mạng của Cơ quan An ninh Quốc gia Hoa Kỳ, cho biết: “Tôi thực sự tin rằng, về lâu dài, AI sẽ giúp chúng ta an toàn và được bảo vệ tốt hơn. Nhưng trong khoảng thời gian từ hiện tại đến một thời điểm nào đó trong tương lai, sẽ có một ‘thời kỳ tối tăm’, khi AI tấn công sẽ chiếm ưu thế rõ rệt—những người không xây dựng nền tảng phòng thủ vững chắc sẽ là những người bị xâm nhập đầu tiên.”

Cần lưu ý rằng Mythos không phải là mô hình duy nhất có khả năng này. Đã có nhiều tổ chức sử dụng các mô hình ngôn ngữ lớn để khai thác lỗ hổng, bao gồm các phiên bản đầu tiên của Claude và Big Sleep.

Mythos

Theorist cho biết, những lỗ hổng "zero-day" trước đây cần vài ngày thậm chí vài tuần để phát hiện, cùng với quá trình viết mã khai thác cho chúng, nay nhờ AI có thể hoàn thành nhanh nhất chỉ trong một giờ, thậm chí vài phút. "Zero-day" là những lỗ hổng bảo mật mà bên phòng thủ chưa phát hiện ra, do đó几乎没有 thời gian để khắc phục.

Hiện tại, JPMorgan đang tập trung chủ yếu vào lĩnh vực chuỗi cung ứng và phần mềm nguồn mở, đồng thời đã phát hiện ra nhiều lỗ hổng và phản hồi vấn đề cho các nhà cung cấp liên quan.

CEO của công ty, Jamie Dimon, cho biết trong cuộc gọi báo cáo tài chính rằng sự xuất hiện của Mythos "cho thấy vẫn còn rất nhiều lỗ hổng cần được khắc phục".

Mythos

Theo một nguồn thạo tin, trước khi công chúng biết đến sự tồn tại của Mythos, JPMorgan Chase đã liên lạc với Anthropic để thảo luận về việc thử nghiệm mô hình này. Người này yêu cầu ẩn danh vì không được phép phát ngôn công khai. JPMorgan Chase từ chối bình luận về vấn đề này.

Hiện nay, các ngân hàng và công ty công nghệ khác ở Phố Wall cũng đang thử nghiệm Mythos để vá các lỗ hổng hệ thống trước khi tin tặc phát hiện ra chúng. Theo Bloomberg, các tổ chức tài chính như Goldman Sachs, Citigroup, Bank of America và Morgan Stanley đều đã tiến hành kiểm tra nội bộ công nghệ này.

Nhân viên của Cisco Systems đang đặc biệt cảnh giác với một vấn đề: liệu kẻ xâm nhập có đang sử dụng AI để tìm kiếm lỗ hổng trong phần mềm thiết bị mạng hoạt động toàn cầu của họ—bao gồm các bộ định tuyến, tường lửa và modem. Ông Anthony Grieco, Giám đốc An ninh và Tin tưởng hàng đầu của công ty, cho biết ông đặc biệt lo ngại rằng AI sẽ làm tăng tốc các cuộc tấn công của tin tặc vào các thiết bị đã hết vòng đời—những thiết bị này sẽ không còn nhận được các bản cập nhật hỗ trợ từ Cisco trong tương lai.

Tuy nhiên, cách sửa các lỗ hổng mà AI phát hiện vẫn sẽ là một thách thức lâu dài. Quá trình này được gọi là “sửa lỗi bảo mật” (security patching), thường tốn kém và kéo dài đối với các tổ chức, khiến nhiều cơ quan chọn cách bỏ qua các lỗ hổng. Các cuộc tấn công thảm khốc như của Equifax – nơi dữ liệu của khoảng 147 triệu người bị đánh cắp – là do các lỗ hổng đã biết không được vá kịp thời.

Mythos

Mặc dù đã bị chính quyền Trump xếp vào danh sách "mối đe dọa chuỗi cung ứng" sau khi từ chối hỗ trợ các hoạt động giám sát quy mô lớn nhắm vào công dân Mỹ, công ty hiện vẫn đang duy trì giao tiếp và hợp tác với các cơ quan liên bang.

Bộ Tài chính Hoa Kỳ đang tìm cách giành quyền sử dụng Mythos trong tuần này. Bộ trưởng Tài chính Scott Bessent cho biết mô hình này sẽ giúp Hoa Kỳ duy trì lợi thế dẫn đầu trong lĩnh vực trí tuệ nhân tạo so với các quốc gia khác.

Mythos

Trong một cuộc thử nghiệm, Mythos đã viết một đoạn mã tấn công trình duyệt, kết nối bốn lỗ hổng khác nhau thành một chuỗi khai thác hoàn chỉnh — hành động này vốn đã là nhiệm vụ cực kỳ khó khăn ngay cả với các tin tặc con người. Báo cáo nghiên cứu an ninh mạng chỉ ra rằng loại “chuỗi lỗ hổng” này thường có thể xuyên thủng ranh giới hệ thống vốn được bảo vệ rất chặt chẽ, tương tự như cách Stuxnet từng tấn công máy ly tâm tại cơ sở hạt nhân Iran.

Ngoài ra, theo Anthropic, khi được hướng dẫn rõ ràng, Mythos thậm chí có thể phát hiện và khai thác các lỗ hổng zero-day trong tất cả các trình duyệt chính hiện nay.

Anthropic cho biết họ đã sử dụng Mythos để phát hiện lỗ hổng trong mã Linux. Jim Zemlin nhấn mạnh rằng Linux “đóng vai trò nền tảng cho hầu hết các hệ thống tính toán hiện nay”, từ điện thoại thông minh Android, bộ định tuyến internet, đến siêu máy tính của NASA, gần như có mặt ở mọi nơi. Mythos có khả năng tự động phát hiện các lỗ hổng trong nhiều mã nguồn mở, và nếu bị khai thác, những lỗ hổng này có thể cho phép kẻ tấn công kiểm soát hoàn toàn toàn bộ máy tính.

Hiện tại, đã có hàng chục nhân viên từ Linux Foundation bắt đầu thử nghiệm Mythos. Theo Zemlin, một vấn đề then chốt là: liệu mô hình của Anthropic có thể cung cấp những hiểu biết đủ giá trị để giúp các nhà phát triển viết phần mềm an toàn hơn ngay từ đầu, từ đó giảm thiểu sự xuất hiện của lỗ hổng không.

“Chúng tôi rất giỏi trong việc phát hiện lỗ hổng,” anh ấy nói, “nhưng lại làm rất kém trong việc sửa chúng.”