Anthropic 呼籲全球 AI 實驗室因自我改進風險而減緩開發進度

Anthropic 表示，如果領先的 AI 實驗室和政府能夠建立一種可信的方式來驗證所有人都遵守規範，則世界應有選擇減緩或暫時停頓前沿 AI 發展的權利。

在 Anthropic 研究院發布的最新報告中，該公司表示，暫停有助於讓政策制定者、研究人員和民間社會有更多時間應對日益強大的 AI 系統所帶來的風險。但該公司警告稱，只有當減緩措施適用於多個資源充足、處於或接近前沿的實驗室時，才會提升安全性。

Anthropic 表示，單一公司單方面暫停較易實施，但效果遠較差，因為這可能僅會讓領先地位轉移給較不謹慎的參與者。該公司表示，任何有意義的暫停都需要多個國家的開發者在相同條件下停止，並驗證競爭對手也已停止。

這項警告出現在 Anthropic 表示 AI 系統已加速新 AI 模型的開發之際。截至 2026 年 5 月，合併至 Anthropic 代碼庫的代碼中，超過 80% 由 Claude 撰寫，而這在 2025 年 2 月 Claude Code 以研究預覽版推出前僅為個位數。

公司表示，2026 年第二季度，典型的 Anthropic 工程師每天合併的代碼量是 2024 年的八倍。2026 年 3 月的一項內部調查也發現，使用 Mythos Preview 的研究人員估計，他們的產出量比沒有使用 AI 模型時高出約四倍。

Anthropic 表示，這些進展表明前沿 AI 系統的建構方式正在發生更廣泛的轉變。人類工程師和研究人員仍舊設定目標、審查輸出結果，並決定哪些問題重要，但 Claude 已經承擔了更多在編碼、測試、除錯和實驗優化方面的執行工作。

該公司將這一趨勢描述為遞歸自我改進的早期步驟，即人工智慧系統能夠自主設計和開發自己的後繼者。Anthropic 表示，此類系統目前尚不存在，且未必不可避免，但警告稱其可能比大多數機構的準備速度來得更快。

如果發生這種情況，Anthropic 表示，AI 發展的速度可能會更直接地與計算資源的可用性和效率提升掛鉤，而人類則轉向監督、驗證和確認。這將使用於監控前沿 AI 發展的系統變得更加重要，特別是在 AI 模型開始在構建自身未來版本中扮演更大角色的情況下。

Anthropic 表示，挑戰在於驗證 AI 發展的暫停比監控許多其他技術更困難。訓練過程可以隱藏，其輸入具有通用性，且若有一方能在其他方停止時取得領先，則悄悄違規的動機將極為強大。

公司表示，一個可信的暫停機制需要明確的規則，以界定觸發條件、終止條件，以及由誰來決定條件是否已滿足。它將這一挑戰與其他複雜技術的軍備控制制度相比，並指出這些系統花了數十年才建立起來，而人工智慧可能不會給政府留下太多時間。

Anthropic 表示，計劃在未來幾個月內與政策制定者、研究人員、民間社會及其他 AI 公司進行對話，以審視遞歸式自我改進以及前沿 AI 發展的可能協調機制。

公司表示，如果其他前沿開發者也以可驗證的方式減緩或暫停開發，公司預計也會減緩或暫時停止開發。