白宮與 Anthropic 討論 AI 模型安全評估框架

幣界網報導：

美國白宮正與 AI 公司 Anthropic 討論一套模型安全評估框架，目標是為新一代 AI 模型的安全缺陷建立統一分級方法，並據此判斷政府是否需要介入。此事發生在美國此前因一項被認定為「越獄」的安全問題，對 Anthropic 最新模型實施出口限制之後。

建立圍繞「越獄」漏洞的統一標準

據報導，這套框架將用於評估未來類似事件的嚴重程度，重點包括三項內容：防護措施被繞過的程度、被暴露出來的模型能力，以及漏洞在現實中的後果。

目前，政府與企業在這類問題上的分歧仍然明顯。此前，Anthropic 首席执行官 Dario Amodei 與政府官員就相關漏洞是否構成重大安全問題存在不同判斷。報導指出，AI 技術進展過快，而政府現有體系還不足以對這類爭議作出一致評估。

出口限制後，談判繼續推進

白宮此前已對 Anthropic 施行出口限制，禁止海外用戶訪問其最新模型 Fable 5 和 Mythos 5。公司隨後暫停了這兩款模型的對外服務。

報導提到，上週五雙方談判一度接近破裂，原因是 Anthropic 拒絕按政府要求下線 Fable，認為相關漏洞影響有限，不足以被認定為嚴重安全缺陷。隨後，白宮採取出口限制措施，迫使公司將相關模型撤出市場。

不過，從週末開始，雙方重新恢復溝通。美國商務部長 Howard Lutnick、國家網路總監 Sean Cairncross，以及 Anthropic 聯合創始人 Tom Brown 參與了多輪長時間通話。此後，雙方又在華盛頓進行了近一週的線下會談。

白宮加快 AI 安全規則落地

報導顯示，Anthropic 方面參與談判的人員包括公共政策負責人 Sarah Heck 和聯合創始人 Tom Brown。公司還在本週一派出高級研究人員和安全防護專家前往美國商務部，與政府官員繼續磋商。

這輪討論也反映出一個更現實的判斷：沒有任何 AI 模型能夠完全免受黑客攻擊。因此，政府希望先明確企業評估安全風險的標準，再決定何種情形下需要採取限制措施。

這一方向也與近期七國集團會議上的討論相呼應。多家頭部 AI 公司和部分國家領導人提到，應盡快形成更清晰的模型安全衡量標準，以應對能力持續增強的 AI 系統可能帶來的經濟與國家安全風險。