Anthropic 報告：AI 自我改進持續進展，但完全自主仍遙不可及

根據動察 Beating 監測，AI 自主迭代的能力，正超出所有人的預期。Anthropic 研究院（The Anthropic Institute）於 6 月 5 日發布報告《當 AI 建造自身》，詳細披露其在「遞歸自我提升」方面的研發進展。數據顯示，截至 2026 年 5 月，Anthropic 主代碼庫合併的代碼中，超過 80% 是 Claude 自己撰寫的；而在 2025 年 2 月 Claude Code 發布前，Claude 撰寫的代碼僅佔個位數。智譜 AI 創始人唐傑於 5 月 13 日曾預測，大模型的終局就是自我進化，且 Claude 可能已跑通「寫代碼、洗數據、自己訓練自己」的自我訓練基線。但 Anthropic 在報告中明確澄清，完全自主設計和開發後繼者的遞歸自我提升尚未實現。AI 在開發鏈條中扮演的角色，正處於從局部提效向自主決策過渡的階段。2026 年第二季度，Anthropic 工程師人均每天合併的代碼量達到 2024 年的 8 倍。現今的開發流程十分簡化：工程師僅負責規劃目標與審查，Claude 負責具體編寫與運行。Anthropic 還部署了 Claude 擔任自動代碼審查員，負責攔截 Bug 與安全漏洞。這表明唐傑指出的「自我評判」支柱已在工程端落地，但人類審查仍是最後的安全閥門。模型獨立執行長周期任務的可靠度亦在翻倍。模型能持續自主工作的時長約每 4 個月翻一倍。2024 年 3 月的 Claude 3 Opus 僅能處理 4 分鐘的簡單任務；一年後的 Claude 3.7 Sonnet 已能應對 1.5 小時；至 2026 年 3 月，Claude 4.6 Opus 已能處理 12 小時的複雜任務。評測機構 METR 的數據顯示，最新 Claude Mythos 預覽版可持續自主工作 16 小時以上，逼近當前評測工具的上限。按此速度，到 2027 年，AI 將能自主完成需人類數週工作的科研任務，協助企業實現從「一人公司」向「無人公司」的跨越。至於唐傑猜測的「自我訓練基線」，報告揭示的其實是一個局部的「微縮版實驗閉環」。在小模型訓練代碼提速實驗中，2025 年 5 月的 Claude 4 Opus 僅能將代碼速度提升 3 倍，而 2026 年 4 月的 Claude Mythos 預覽版則實現了 52 倍加速。相比之下，人類頂尖研究員通常能在 4 至 8 小時內實現 4 倍提升。然而，實驗的優化目標與成功指標均由人類事先設定；在面對更複雜的端到端「清洗數據、生成合成數據並自我訓練」完整鏈條時，AI 的決策能力仍舊缺失。然而，研發鏈路的自主閉環，正將人類推向失去系統終極控制權的邊緣。唐傑預測的「LLM OS 取代傳統架構、應用按需即時生成」，意味著未來計算機運行的都將是無法提前審查的動態代碼；而 Anthropic 警告的「人類審查跟不上 AI 自我進化」，則意味著我們連生成代碼的源頭也無法把關。當 AI 開始自主設計並訓練後繼者，軟體的演進將徹底淪為黑箱。一旦在黑箱系統中放任 AI 進行未經人類審計的自我迭代，後續對自我提升系統的安全隔離、監控與行為對齊，將變得極其棘手。