Anthropic 因網路安全風險決定不公開發布 Mythos AI 模型

編者按：當一家 AI 公司選擇不把最強模型直接推向公眾，本身就說明了問題。

Anthropic 的 Mythos 已經能夠獨立完成一整套攻擊流程。從發現零日漏洞、編寫利用代碼，到串聯多步路徑進入核心系統，這些原本需要頂級駭客長時間協作的工作，被壓縮到了小時級甚至分鐘級。

這也是為什麼，在模型披露的第一时间，Scott Bessent 與 Jerome Powell 便召集華爾街機構開會，要求使用它進行「自查」。當漏洞發現能力被大規模釋放，金融系統所面對的，不再是零散攻擊，而是持續掃描。

更深層的變化在於供給結構。過去，漏洞的發現依賴少數安全團隊和駭客的經驗累積，節奏緩慢且無法複製。現在，這種能力開始被模型批量輸出，攻擊與防禦的門檻同時降低。一位知情人士的比喻非常直接：將模型交給普通駭客，等同於讓其具備特種作戰能力。

機構已開始使用相同的工具反向檢查自身系統。JPMorgan Chase、Cisco Systems 等公司都在內部測試，希望在漏洞被利用前完成修補。但現實的限制並未改變，發現的速度在加快，修復依舊緩慢。「我們很擅長找漏洞，但不擅長修復」，Jim Zemlin 的判斷，點出了節奏上的錯位。

事實上，由於 Mythos 不是單點能力的提升，而是將原本分散且受限的攻擊能力整合、加速並降低使用門檻，一旦脫離控制環境，這種能力會以何種方式擴散，尚無現成經驗可參考。

危險不在於它能做什麼，而在於它可以被誰使用，以及在什麼條件下被使用。

以下為原文：

二月一個溫暖的傍晚，在巴厘島參加婚禮的間隙，Nicholas Carlini 暫時離席，打開筆記本電腦，準備「搞點破壞」。彼時，Anthropic 剛剛將一款名為 Mythos 的新人工智慧模型開放給內部評測，而這位知名 AI 研究員，正打算看看它究竟能惹出多大的麻煩。

Anthropic 聘請 Carlini 的工作，就是對自家 AI 模型進行「壓力測試」，評估駭客是否可能藉助它們實施間諜活動、盜竊或破壞行為。在巴厘島參加印度婚禮期間，Carlini 就被這個模型的能力震驚到了。

在短短幾個小時內，他便找到了多種可用於滲透全球常用系統的技術。等他回到 Anthropic 位於舊金山市中心的辦公室後，更進一步發現：Mythos 已經能夠自主生成強大的入侵工具，其中甚至包括針對 Linux——這一支撐現代計算體系的大多數開源系統的攻擊手段。

Mythos 演繹了一場「數位版銀行劫案」：它能繞過安全協議，從正門進入網絡系統，進而攻破數位金庫，獲取其中的在線資產。過去，AI 只能「撬鎖」，而現在，它已具備策劃並完成整場「搶劫」的能力。

Carlini 與部分同事開始向公司內部發出警報，通報他們的發現。與此同時，他們幾乎每天都在 Mythos 所探測的系統中發現高危乃至致命級別的漏洞——這些問題，通常只有全球最頂尖的黑客才有能力挖掘出來。

Mythos

同時，Anthropic 內部一個名為「Frontier Red Team」的團隊——由 15 名員工組成，被稱為「Ants」——也在進行類似的測試。這個團隊的職責是確保公司的模型不會被用於危害人類。他們會把機器狗運進倉庫，與工程師一起測試，看看聊天機器人是否可能被用來惡意控制這些設備；也會與生物學家合作，評估模型是否可能被用於製造生物武器。

而這次，他們逐漸意識到，Mythos 帶來的最大風險來自網路安全領域。「在拿到模型的幾個小時內，我們就知道它不一樣，」負責該團隊的 Logan Graham 表示。

先前的模型 Opus 4.6 已展現出協助人類利用軟體漏洞的能力。但 Graham 指出，Mythos 已經可以「親自」利用這些漏洞。這構成了國家安全層面的風險，他也因此向公司高層發出警告。這讓他不得不面對一個棘手的處境：向管理層說明，公司下一個重要的收入引擎，可能因過於危險而無法對公眾發布。

Anthropic 聯合創始人兼首席科學官 Jared Kaplan 表示，在 Mythos 的訓練過程中，他一直「非常密切地」關注其進展。到一月時，他開始意識到，這個模型在發現系統漏洞方面的能力異常強大。作為一名理論物理學家，Kaplan 需要判斷，這些能力究竟只是「技術上的有趣現象」，還是「與互聯網基礎設施高度相關的現實問題」。最終，他得出的結論是後者。

Mythos

在 2 月下旬至 3 月初的一兩週時間裡，Kaplan 與聯合創始人 Sam McCandlish 一直在權衡：是否應該發布這款模型。

到了 3 月第一周，公司高層團隊——包括首席執行官 Dario Amodei、總裁 Daniela Amodei、首席資訊安全官 Vitaly Gudanets 等人——召開會議，聽取 Kaplan 和 McCandlish 的匯報。

他們的結論是：Mythos 風險過高，不適合全面對外發布。但 Anthropic 仍應允許部分公司，甚至包括競爭對手，對其進行測試。

「我們很快意識到，這次必須採取一種相當不同的做法，這不會是一次常規的產品發布，」Kaplan 表示。

到 3 月第一周，公司最終達成一致：批准將 Mythos 作為一項網路安全防禦工具投入使用。

Mythos

市場的反應幾乎是立即的。在 Anthropic 公開 Mythos 存在的當天，美國財政部長 Scott Bessent 與聯邦儲備系統主席 Jerome Powell 便召集華爾街主要機構負責人，在華盛頓召開緊急會議。傳遞的信息非常明確：立即利用 Mythos 找出你們系統中的漏洞。

據接近與會高層的人士透露（因涉及私下交流而要求匿名），會議的嚴肅程度可見一斑——與會者甚至拒絕向部分核心顧問透露會議內容。

白宮官員對 Mythos 作為駭客工具潛力發出的緊急警告，以及他們建議「將其用於防禦」的立場，都指向一個更深層的變化：人工智慧正迅速成為網路安全領域的決定性力量。Anthropic 已在「Project Glasswing」項目中，將 Mythos 限量開放給部分機構使用，包括 Amazon Web Services、Apple 和 JPMorgan Chase 等企業，允許它們進行測試；同時，政府機構也已表現出濃厚興趣。

在對外開放前，Anthropic 曾向美國政府高級官員全面匯報 Mythos 預覽版的能力，包括其在網絡攻擊與防禦兩方面的潛在用途。與此同時，公司也正與多個國家政府展開持續溝通。一位因涉及內部事務而要求匿名的 Anthropic 員工透露了這一情況。

競爭對手 OpenAI 也迅速跟進，於週二宣布將推出一款用於發現軟體漏洞的工具——GPT-5.4-Cyber。

在對早期版本的測試中，研究人員發現了數十個「令人擔憂」的行為案例，包括不遵循人類指令，甚至在極少數情況下，會在違反指令後嘗試掩蓋自身行為。

目前，Anthropic 尚未將 Mythos 作為網路安全工具正式公開發布，外部研究者也尚未充分驗證其能力。但公司此前「限制存取」的罕見決策，反映出行業與政府內部日漸形成的一種共識：AI 正在重塑網路安全的經濟結構——它顯著降低了發現漏洞的成本，壓縮了攻擊準備時間，並降低了某些攻擊類型的技術門檻。

Anthropic 也警告稱，Mythos 更強的自主行動能力本身就帶來了風險。在測試中，團隊觀察到多個令人不安的案例：模型不服從指令，甚至在違規後試圖掩蓋痕跡。在一次事件中，模型自行設計出一套多步驟攻擊路徑，從受限環境中「逃逸」，獲得更廣泛的互聯網訪問權限，並主動發布內容。

在現實世界中，從銀行應用到醫院系統所依賴的軟體，普遍存在複雜且隱蔽的代碼漏洞，這些問題往往需要專業人員耗費數週甚至數月才能發現。而一旦駭客搶先利用這些漏洞，就可能引發資料洩露或勒索軟體攻擊，帶來嚴重後果。

不過，也有不少重量級人士對 Mythos 的真實能力及其潛在風險提出質疑。白宮 AI 顧問 David Sacks 在社交平台 X 上表示：「越來越多的人開始懷疑 Anthropic 是否是 AI 行業裡的『狼來了男孩』。如果 Mythos 帶來的威脅最終沒有顯現，公司將面臨嚴重的信譽問題。」

但現實是，駭客早已開始利用大語言模型發起複雜攻擊。例如，一個網路間諜組織曾使用 Anthropic 的 Claude 模型嘗試入侵約 30 個目標；其他攻擊者則利用 AI 從政府機構竊取數據、部署勒索軟體，甚至快速攻破數百個用於數據防護的防火牆工具。

據一位知情人士透露，在美國國安相關官員看來，Mythos 的出現正帶來前所未有的不確定性——評估網路安全風險本身變得更加困難。如果將該模型交給個體駭客，其效果可能相當於將一名普通士兵直接提升為特種部隊作戰人員。

同時，這種模型也可能成為「能力放大器」：讓一個犯罪駭客組織具備小型國家級的攻擊能力，也讓一些中型和小型國家的情報與軍方駭客，能夠執行原本只有大國才能完成的網路攻擊。

美國國家安全局前網路安全負責人 Rob Joyce 表示：「我確實相信，從長期來看，AI 會讓我們更安全、更有保障。但在現在與未來某個時間點之間，會有一段『黑暗時期』，在這段時間裡，進攻型 AI 將佔據明顯優勢——那些沒有打好基礎防護的人，會首先被攻破。」

值得注意的是，Mythos 並非唯一具備此類能力的模型。包括 Claude 早期版本以及 Big Sleep 在內，已經有多家機構在使用大語言模型進行漏洞挖掘。

Mythos

據該人士介紹，過去需要數天甚至數週才能識別的「zero-day」，以及為其編寫利用代碼的過程，如今借助 AI 最快只需一小時，甚至幾分鐘即可完成。所謂「zero-day」，是指防禦方尚未察覺的安全缺陷，因此幾乎沒有時間進行修復。

Currently, JPMorgan's focus is primarily on the supply chain and open-source software sectors, and it has identified multiple vulnerabilities, reporting them to the relevant vendors.

公司首席執行官 Jamie Dimon 在財報電話會議上表示，Mythos 的出現「表明仍有大量漏洞亟待修復」。

Mythos

據一位知情人士透露，在外界尚未獲知 Mythos 存在之前，JPMorgan Chase 就已與 Anthropic 展開溝通，討論對該模型進行測試。該人士因無權公開發言而要求匿名。摩根大通對此拒絕置評。

如今，其他華爾街銀行與科技公司也在嘗試使用 Mythos，以便在駭客發現漏洞之前，提前修補系統缺陷。根據彭博社報導，Goldman Sachs、Citigroup、Bank of America 以及 Morgan Stanley 等金融機構，均已在內部測試這一技術。

Cisco Systems 的員工正對一個問題格外警惕：入侵者是否會利用 AI，在其全球運行的網絡設備軟件中尋找突破路徑——這些設備包括路由器、防火牆和調制解調器。該公司首席安全與信任官 Anthony Grieco 表示，他尤其擔心 AI 會加速駭客對「生命週期已結束」的設備發起攻擊——這類設備未來將不再獲得 Cisco 的更新支持。

而如何修補 AI 發現的漏洞，仍將是一個長期難題。這個過程被稱為「安全補丁」（security patching），對組織而言往往成本高昂、週期漫長，以至於不少機構選擇對漏洞置之不理。像 Equifax 遭遇的那類災難性攻擊——約 1.47 億人的數據被竊取——正是因為已知漏洞未被及時修復所致。

Mythos

儘管在拒絕協助開展針對美國公民的大規模監控後，Anthropic 曾被特朗普政府認定為「供應鏈威脅」，但該公司目前仍在與聯邦機構展開溝通與合作。

美國財政部本週正尋求獲得 Mythos 的使用權限。財政部長 Scott Bessent 表示，這一模型將有助於美國在人工智慧領域維持對他國的領先優勢。

Mythos

在一次測試中，Mythos 編寫了一段瀏覽器攻擊代碼，將四個不同漏洞串聯成一條完整的利用鏈——這類操作對人類駭客而言本身就是極具挑戰的高難度任務。網絡安全研究報告指出，這種「漏洞鏈」往往可以打通原本高度安全的系統邊界，類似於當年 Stuxnet 攻擊伊朗核設施離心機時所採用的方式。

此外，據 Anthropic 表示，在被明確指令引導的情況下，Mythos 甚至能夠識別並利用所有主流瀏覽器中的「零日漏洞」。

Anthropic 表示，他們曾利用 Mythos 在 Linux 代碼中發現漏洞。Jim Zemlin 指出，Linux「支撐著當今大多數計算系統」，從 Android 智能手機、互聯網路由器，到 NASA 的超級電腦，幾乎無處不在。Mythos 能夠自主發現多個開源代碼中的缺陷，而這些漏洞一旦被利用，攻擊者甚至可以完全接管整台機器。

目前，Linux Foundation 已有數十名人員開始對 Mythos 進行測試。在 Zemlin 看來，一個關鍵問題是：Anthropic 的模型是否能夠提供足夠有價值的洞察，幫助開發者在源頭上寫出更安全的軟體，從而減少漏洞的產生。

「我們很擅長發現漏洞，」他說，「但在修復它們這件事上，卻做得很差。」