Anthropic 提出前沿人工智慧模型的監管框架

幣界網報導：

Anthropic 發布了一套針對前沿 AI 模型的政策方案。公司表示，現有的透明度規則已難以跟上模型能力的提升速度，政府需要獲得更明確的干預權，才能在高風險系統進入公眾市場前採取措施。

監管對象按算力和收入劃定

該方案分為兩部分，一部分聚焦最強模型的技術與監管要求，另一部分探討自動化衝擊下的經濟分配問題。根據已披露的內容，前者明顯更完整。

Anthropic 將監管範圍收窄至少數頭部開發者，而非覆蓋整個行業。公司提出，訓練規模超過 10²⁵ 次浮點運算的模型應納入框架；年 AI 相關收入超過 5 億美元、或 AI 研發支出超過 10 億美元的企業，也應適用相關要求。

這種設計旨在將重點放在資源最集中、能力最強的模型上，避免將中小型開發者和研究機構納入同等強度的監管。

主張政府可阻止高風險上線

公司表示，最核心的變化是賦予政府法定權力，以阻止或遏制高風險模型的部署。目前美國尚未建立一套完整的機制，能在模型正式面向公眾前進行實質性攔截。

在具體要求上，前沿模型開發者需在發布前完成測試，並公開測試摘要、安全框架和 system card，說明模型的行為表現與風險控制方式。企業還需定期提交風險報告，披露整體風險狀況和安全工作進展。

Anthropic 還主張引入獨立評估機構，對企業自行完成的測試進行複核，並單獨發布模型風險結論。這樣一來，監管部門和公眾獲取資訊的渠道將不再只依賴企業自述。

處罰與安全要求同步加強

在執法設計上，Anthropic 建議將民事處罰與企業全球年度收入掛鉤，而不是採用固定罰款。公司認為，只有這樣，處罰才會對大型 AI 企業形成實際約束。對重複違規者，罰款力度還應進一步提高。

除測試與披露外，方案還要求企業建立更強的安全體系，保護模型權重和訓練系統，防止外部攻擊和內部濫用。企業可以公開說明安全計劃的大致結構，更詳細內容則在政府機構要求時提供。

Anthropic 亦提出，政府與行業應共同制定獨立評估者的標準，並確保這些評估者獲得足夠資金和必要訪問權限。由於前沿模型通常是企業最敏感的資產，由誰來評估、如何獲得訪問權，將是落實中的難點之一。

點名四類主要風險

Anthropic 在文件中列出四類重點風險：生物風險、網絡安全風險、失控風險，以及 AI 自動加速自身研發的風險。公司認為，這些風險並非彼此孤立，可能相互放大。

例如，具備大規模發現軟體漏洞能力的模型，可能直接影響醫院、能源網絡等關鍵基礎設施；而在約束不足的情況下，這類能力也可能與生物風險疊加。

在配套措施上，Anthropic 建議加強互聯網和關鍵基礎設施防護，推動關鍵服務替換老舊系統，並設立專門政府職能，持續追蹤前沿 AI 的網絡能力變化。至於失控和自動化研發風險，公司承認相關治理工具仍不成熟，仍需繼續完善檢測、隔離和關閉不安全系統的能力。

補充資訊：Anthropic 在文件中表示，現有加州和紐約等地的透明度規則有一定作用，但僅靠公開披露已不足以覆蓋前沿模型快速迭代帶來的風險。