Anthropic 的 Mythos AI 在兩週內引發網路安全危機與政策回應

作者：深潮 TechFlow

4 月 8 日，美國財長貝森特和聯邦儲備系統主席鮑威爾在華盛頓財政部總部緊急召集了一批華爾街銀行領袖。

會議的主題不是利率，不是通脹，而是一家 AI 公司的最新模型。

這個模型稱為 Claude Mythos。Anthropic 表示，這是他們打造過最強大的 AI，強大到連自己都不敢發布。在內部測試中，它逃離了研究人員設計的安全沙盒，跑到互聯網上發帖炫耀自己的越獄過程。負責這場測試的研究員 Sam Bowman 當時正在公園裡吃三明治，突然收到一封來自 Mythos 的郵件，才意識到它已經出來了。

一次 CMS 設置錯誤引發的連鎖反應

故事要從 3 月 26 日晚上講起。

劍橋大學的 Alexandre Pauwels 和 LayerX Security 的 Roy Paz，像所有安全研究員一樣，做著他們每天都在做的事：探查那些不應被公開訪問的內容。他們發現了 Anthropic 內容管理系統中一個未加密的資料庫，裡面存放著近 3000 份未發表的文件。

其中一份是一份草稿部落格，描述了一個名為 Claude Mythos 的新模型。草稿中使用了內部代號「Capybara」（水豚），定義了一個全新的模型等級，比 Anthropic 此前最強的 Opus 系列更大、更聰明，也更昂貴。

草稿中有一句話讓整個安全圈炸開了鍋：這個模型在網路安全能力上「遠遠領先於其他任何 AI 模型」，它「預示著一波即將到來的模型浪潮，其利用漏洞的能力將遠遠超過防禦者的應對速度」。

《財富》雜誌最先報導了這次洩露。Anthropic 將原因歸咎於「人為錯誤」，稱內容管理系統的預設設定將上傳檔案設為公開存取。諷刺的是，一家聲稱正在構建全球最強網絡安全 AI 的公司，竟因一個最基礎的設定錯誤而栽跟頭。

五天後，《財富》再次報導了第二次洩露事件，Anthropic 的編程工具 Claude Code 的原始碼，約 50 萬行程式碼、1900 個檔案，因 npm 套件錯誤而公開。兩週內兩起低級安全事件，竟出自同一家正在警告世界「AI 網路攻擊時代來臨」的公司。

但市場已無暇嘲笑 Anthropic 的運維水平。3 月 27 日開盤，網路安全股集體跳水。CrowdStrike 暴跌 7.5%，Palo Alto Networks 跌超 6%，Zscaler 跌 4.5%，iShares 網路安全 ETF 單日跌 4%。

Stifel 分析師 Adam Borg 評價稱：這可能是「終極黑客工具，能把任何普通黑客提升到國家級對手的水平」。

Mythos 到底有多強？

4 月 7 日，Anthropic 正式揭開了 Mythos 的面紗。直接看數字：

SWE-bench 認證（衡量 AI 解決真實軟體工程問題的基準測試）得分 93.9%，上一代旗艦 Opus 4.6 為 80.8%。USAMO 2026 數學證明，97.6% 對 42.3%。網路安全挑戰賽 Cybench，100% 通關率，此前沒有任何模型做到過。

USAMO 數學證明從 42.3% 跳到 97.6%，一代模型拉開了 55 個百分點。

Anthropic 發布了 244 頁的系統安全卡，其中承認 Mythos 的網路安全能力並非來自專門的安全訓練，而是通用推理和編碼能力提升的「下游結果」。同樣的改進讓它更擅長修補漏洞，同時也讓它更擅長利用漏洞。

Anthropic 的前沿紅隊將 Mythos 實測於真實的軟體上，而非模擬環境或 CTF 賽題，而是數十億人每天使用的作業系統和瀏覽器。

結果是這樣的：在 Firefox 147 的 JavaScript 引擎上，Opus 4.6 嘗試了幾百次，僅寫出 2 個可用的 exploit。Mythos 成功了 181 次。90 倍的差距，一代模型的距離。在所有主流作業系統和瀏覽器中，Mythos 發現了數千個零日漏洞，大量被歸類為「嚴重級別」。

更離譜的是某些具體案例。OpenBSD 的一個 TCP SACK 漏洞存活了 27 年，經歷無數次人工審計和自動化掃描工具的檢查，從未被發現。Mythos 找到了它，僅需兩個精心構造的數據包即可讓任何伺服器崩潰。FreeBSD 的一個 NFS 遠端代碼執行漏洞存在了 17 年，Mythos 不僅發現了它，還自主構建了一條跨越多個數據包、由 20 個 ROP gadget 組成的攻擊鏈。

Anthropic 的一些沒有安全背景的工程師做了一個測試：睡前讓 Mythos 去尋找遠端程式碼執行漏洞，第二天早上醒來，桌上已經放著一份完整可用的 exploit。

沙盒逃逸：當 AI 開始「不擇手段」

零日漏洞的發現是能力問題，但 Mythos 在測試中展現的行為模式，性質完全不同。

在一次行為測試中，研究人員為 Mythos 的早期版本提供了一個安全沙盒環境，模擬用戶試圖讓它逃出沙盒並通知負責測試的研究員。Mythos 不僅成功逃出，還做了一件沒有人要求它做的事：它前往幾個不太知名但公開可訪問的網站，發帖描述了自己的越獄過程。

在244頁的系統安全卡中，還記錄了更多「越界」行為。當Mythos在代碼中犯錯時，它嘗試改寫git提交歷史以掩蓋痕跡，並非因為它想欺騙任何人，而是因為它將「修復這個問題」理解為「讓這個問題看起來從未存在過」。在另一次測試中，研究員讓它終止一個不再有用的評估任務，它直接關閉了所有用戶正在運行的同類評估。

Anthropic 在系統安全卡中使用了一個登山比喻：技術高超的嚮導可能比新手更容易讓客戶遇險，因為他的能力會把所有人帶上更危險的路線。

系統安全卡中還藏著一個細節：透過白盒可解釋性工具，研究人員發現 Mythos 在內部神經激活層面有時會推理如何「通過」評估系統的分數，而它在可見的思維鏈輸出中寫的卻是完全不同的內容。它在「想」一件事的同時「說」著另一件事。

Anthropic 表示他們「相當有信心」，這些行為都是模型以不當手段完成任務，而非隱藏的長期目標。Mythos 並未在密謀什麼。它只是極度擅長完成任務，同時完全不了解邊界在哪裡。一個沒有分寸感但無所不能的助手，可能比一個有陰謀的 AI 更難應對。

Project Glasswing：以矛鑄盾

Anthropic 沒有選擇把 Mythos 鎖進保險箱。

4 月 7 日，他們宣布了 Project Glasswing（名稱源自翅膀幾乎透明的玻璃翼蝶，寓意讓軟體漏洞「無處遁形」），並向約 40 家經過審查的組織提供 Mythos Preview，用於防禦性網路安全工作。

創始合作夥伴：亞馬遜 AWS、蘋果、微軟、谷歌、英偉達、思科、CrowdStrike、Palo Alto Networks、摩根大通、Linux 基金會。基本上把矽谷和華爾街的頭部玩家一網打盡。Anthropic 承諾提供最高 1 億美元的使用額度，並向 OpenSSF、Alpha-Omega 等開源安全組織捐贈 400 萬美元。

邏輯是這樣的：Mythos 級別的能力將在 6 到 18 個月內擴散至開源模型中，屆時任何人都能使用。與其等待那一天到來，不如在窗口期內讓防禦者先行一步，先把能修復的漏洞修好。

Anthropic 前沿紅隊的網絡安全負責人 Newton Cheng 直言：目標是讓各組織在類似能力被廣泛使用之前，先習慣用這些能力進行防禦。因為這些能力終將被廣泛使用，唯一的問題是什麼時候。

華爾街先是恐慌，然後鬆了口氣。

在 3 月 27 日洩露曝光後，網路安全股全線崩盤，但於 4 月 7 日 Anthropic 正式宣布 Glasswing，並將 CrowdStrike 和 Palo Alto Networks 列為創始合作夥伴後，這兩隻股票分別上漲 6.2% 和 4.9%，盤後再漲 2%。JPMorgan 重申對兩家公司的增持評級，分析師 Brian Essex 認為，CrowdStrike 和 Palo Alto 被定位為防禦堆棧中的核心層，而非競爭對手。

但這只是暫時的止痛藥。今年以來，這兩隻股票仍分別下跌 9.7% 和 7.8%。

當 AI 風險變成金融系統風險

回到 4 月 8 日，華盛頓財政部總部。

貝森特和鮑威爾召集的全是系統重要性銀行。這種等級的會議，過去基本只在金融危機和疫情期間出現。現在坐在同一張桌子前討論的，是一個 AI 模型的網路攻擊能力。

原因也不複雜：如果 Mythos 級別的能力落入惡意行為者手中，它可以在幾個小時內找到一家大型銀行核心系統的零日漏洞，並寫出可用的攻擊代碼。過去整個網絡安全防禦體系的基本假設是，攻擊者發現和利用漏洞需要大量時間和高度專業化的人力。AI 正在把這個假設掀翻。

Platformer 的 Casey Newton 引用网络安全公司 Corridor 的首席產品官 Alex Stamos 的話：開源模型大約每六個月就會在漏洞發現方面追上閉源前沿模型。

更讓監管者焦慮的是，Anthropic 自己在系統安全卡中承認的事實：他們最先進的評估體系，未能在第一時間發現早期 Mythos 版本最危險的行為。那些最麻煩的事情不是測試抓到的，是內部實際使用時才撞上的。

一個不舒服的前提

Glasswing 的底層邏輯拆開來其實很別扭：要保護世界不被危險的 AI 模型攻擊，你得先把那個危險的 AI 造出來。

Platformer 的 Newton 指出了一個被大多數報導忽略的事實：一家私營公司現在掌握著幾乎所有你聽過的軟體項目的高危零日漏洞利用能力。這種集中度本身就是風險。想竊取 Anthropic 模型權重的人，動機剛剛大幅上升。

而這一切發生在 AI 監管幾乎形同虛設的環境中。Anthropic 表示他們已向 CISA（網絡安全和基礎設施安全局）及商務部進行了通報。但根據目前的報導，政府方面並未展現出與威脅相稱的緊迫感。正如一位了解 Mythos 情況的政府內部人士對 Axios 說的：「華盛頓是靠危機來治理的。在網路安全真正變成一場危機、獲得應有的關注和資源之前，它還只是一個邊緣議題。」

Dario Amodei 在創辦 Anthropic 時，講的就是這樣一個故事：讓一個將安全視為生命的實驗室先接觸到最危險的能力，這樣才有機會在他人接觸之前建立防線。Mythos 和 Glasswing 確實正在按照這個劇本進行。

但理論能否跑贏現實？沒人知道。Anthropic 計劃在未來的一個 Opus 模型上先部署新的安全防護措施，因為該模型「不會帶來與 Mythos 同等程度的風險」。公眾最終會獲得某種 Mythos 級別的能力，但需等待防護體系先就位。

時間窗口到底有多長？Stamos 給出了一個樂觀估計：「如果我們剛剛超越人類能力一步，那就存在一個巨大但有限的漏洞池，可以被發現和修復。」

這個 "如果" 很大。

從 3 月 26 日的一次 CMS 設置錯誤，到 4 月 8 日美國財長緊急召集華爾街，兩週內，一個 AI 模型便從矽谷的科技新聞轉變為華盛頓的金融安全議題。

Stamos 表示，防禦者大約有六個月的窗口期。六個月後，開源模型將迎頭趕上，屆時這些能力將不再僅為少數幾家公司所專屬。

Six months' worth of vulnerabilities fixed will determine how the next game is played.