美國白宮正與 AI 公司 Anthropic 討論一套模型安全評估框架,目標是為新一代 AI 模型的安全缺陷建立統一分級方法,並據此判斷政府是否需要介入。此事發生在美國此前因一項被認定為「越獄」的安全問題,對 Anthropic 最新模型實施出口限制之後。
建立圍繞「越獄」漏洞的統一標準
據報導,這套框架將用於評估未來類似事件的嚴重程度,重點包括三項內容:防護措施被繞過的程度、被暴露出來的模型能力,以及漏洞在現實中的後果。
目前,政府與企業在這類問題上的分歧仍然明顯。此前,Anthropic 首席执行官 Dario Amodei 與政府官員就相關漏洞是否構成重大安全問題存在不同判斷。報導指出,AI 技術進展過快,而政府現有體系還不足以對這類爭議作出一致評估。
出口限制後,談判繼續推進

白宮此前已對 Anthropic 施行出口限制,禁止海外用戶訪問其最新模型 Fable 5 和 Mythos 5。公司隨後暫停了這兩款模型的對外服務。
報導提到,上週五雙方談判一度接近破裂,原因是 Anthropic 拒絕按政府要求下線 Fable,認為相關漏洞影響有限,不足以被認定為嚴重安全缺陷。隨後,白宮採取出口限制措施,迫使公司將相關模型撤出市場。
不過,從週末開始,雙方重新恢復溝通。美國商務部長 Howard Lutnick、國家網路總監 Sean Cairncross,以及 Anthropic 聯合創始人 Tom Brown 參與了多輪長時間通話。此後,雙方又在華盛頓進行了近一週的線下會談。
白宮加快 AI 安全規則落地
報導顯示,Anthropic 方面參與談判的人員包括公共政策負責人 Sarah Heck 和聯合創始人 Tom Brown。公司還在本週一派出高級研究人員和安全防護專家前往美國商務部,與政府官員繼續磋商。
這輪討論也反映出一個更現實的判斷:沒有任何 AI 模型能夠完全免受黑客攻擊。因此,政府希望先明確企業評估安全風險的標準,再決定何種情形下需要採取限制措施。
這一方向也與近期七國集團會議上的討論相呼應。多家頭部 AI 公司和部分國家領導人提到,應盡快形成更清晰的模型安全衡量標準,以應對能力持續增強的 AI 系統可能帶來的經濟與國家安全風險。
