Anthropic 表示,如果領先的 AI 實驗室和政府能夠建立一種可信的方式來驗證所有人都遵守規範,則世界應有選擇減緩或暫時停頓前沿 AI 發展的權利。
在 Anthropic 研究院發布的最新 報告 中,該公司表示,暫停有助於讓政策制定者、研究人員和民間社會有更多時間應對日益強大的 AI 系統所帶來的風險。但該公司警告稱,只有當減緩措施適用於多個資源充足、處於或接近前沿的實驗室時,才會提升安全性。
Anthropic 表示,單一公司單方面暫停較易實施,但效果遠較差,因為這可能僅會讓領先地位轉移給較不謹慎的參與者。該公司表示,任何有意義的暫停都需要多個國家的開發者在相同條件下停止,並驗證競爭對手也已停止。
這項警告出現在 Anthropic 表示 AI 系統已加速新 AI 模型的開發之際。截至 2026 年 5 月,合併至 Anthropic 代碼庫的代碼中,超過 80% 由 Claude 撰寫,而這在 2025 年 2 月 Claude Code 以研究預覽版推出前僅為個位數。
公司表示,2026 年第二季度,典型的 Anthropic 工程師每天合併的代碼量是 2024 年的八倍。2026 年 3 月的一項內部調查也發現,使用 Mythos Preview 的研究人員估計,他們的產出量比沒有使用 AI 模型時高出約四倍。
Anthropic 表示,這些進展表明前沿 AI 系統的建構方式正在發生更廣泛的轉變。人類工程師和研究人員仍舊設定目標、審查輸出結果,並決定哪些問題重要,但 Claude 已經承擔了更多在編碼、測試、除錯和實驗優化方面的執行工作。
該公司將這一趨勢描述為遞歸自我改進的早期步驟,即人工智慧系統能夠自主設計和開發自己的後繼者。Anthropic 表示,此類系統目前尚不存在,且未必不可避免,但警告稱其可能比大多數機構的準備速度來得更快。
如果發生這種情況,Anthropic 表示,AI 發展的速度可能會更直接地與計算資源的可用性和效率提升掛鉤,而人類則轉向監督、驗證和確認。這將使用於監控前沿 AI 發展的系統變得更加重要,特別是在 AI 模型開始在構建自身未來版本中扮演更大角色的情況下。
Anthropic 表示,挑戰在於驗證 AI 發展的暫停比監控許多其他技術更困難。訓練過程可以隱藏,其輸入具有通用性,且若有一方能在其他方停止時取得領先,則悄悄違規的動機將極為強大。
公司表示,一個可信的暫停機制需要明確的規則,以界定觸發條件、終止條件,以及由誰來決定條件是否已滿足。它將這一挑戰與其他複雜技術的軍備控制制度相比,並指出這些系統花了數十年才建立起來,而人工智慧可能不會給政府留下太多時間。
Anthropic 表示,計劃在未來幾個月內與政策制定者、研究人員、民間社會及其他 AI 公司進行對話,以審視遞歸式自我改進以及前沿 AI 發展的可能協調機制。
公司表示,如果其他前沿開發者也以可驗證的方式減緩或暫停開發,公司預計也會減緩或暫時停止開發。
