遞歸超智慧推出首個自動化 AI 研究系統

幾天前，Anthropic 發表了一篇題為「When AI Builds Itself」的文章，迅速引發廣泛討論。文章揭示了一組令人矚目的內部數據：截至 2026 年 5 月，Anthropic 的程式碼庫中超過 80% 的程式碼已由 Claude 撰寫，工程師每日合併的程式碼量是 2024 年的 8 倍；在一項內部測試中，Claude 將一段訓練程式碼的運行速度從基準提升了約 52 倍，而一名有經驗的人類研究員通常需要 4 到 8 小時才能達到 4 倍加速。

Anthropic 將這條軌跡指向一個更深的目的地：「遞歸自我改進」——AI 系統自主設計、構建和訓練自身的後繼版本，人類不再驅動每一步。值得注意的是，該公司還呼籲行業協調，在遞歸自我改進時刻到來時擁有緩停乃至臨時叫停前沿 AI 開發的選項。並且 Anthropic 已經這麼做了：限制最新的 Claude Fable 5 被用於研發前沿 AI。

而現在，Recursive Superintelligence 宣布向自動化 AI 研究邁出了第一步。

這家由田淵棟聯合創立的新公司，剛剛結束隱身狀態僅一個月，如今便發布了首項公開技術成果。他們打造了一個開放式的自動化知識發現系統，並在三個基準測試上取得了 SOTA 結果。簡單來說，他們成功讓 AI 替你跑實驗。

https://x.com/tydsh/status/2065062838255649082

第一步成果：讓 AI 替你跑實驗

Recursive 這第一項公開技術成果名為「First Steps Toward Automated AI Research」（邁向自動化 AI 研究的第一步）。

推文：https://x.com/Recursive_SI/status/2064980090702962699
倉庫地址：https://github.com/recursive-org/first-steps-toward-automated-ai-research
部落格地址：https://www.recursive.com/articles/first-steps-toward-automated-ai-research

In a nutshell, the core of this work is: building a system that can autonomously drive the AI research loop and achieving new state-of-the-art results on three benchmarks.

在正式拆解成果之前，有必要先理解這套系統的設計邏輯。

傳統的 AI 研究流程是一個高度依賴人的「提想法—寫代碼—跑實驗—分析結果—再提想法」的閉環。它的效率瓶頸不在算力，而在人。全世界能設計前沿訓練流程的研究員屈指可數，而每一轮實驗迭代都需要他們高度介入。

Recursive 的系統試圖將這個閉環自動化。

其運作方式為：針對明確的優化目標，系統自動提出實驗構想、實現代碼、運行驗證、從中學習，並決定下一步的搜索方向。多條研究路線可並行推進，有效的發現可跨任務複用，獎勵作弊（reward hacking）的檢測機制亦內嵌於整個循環中，以防止系統「走捷徑」僅提升評測指標卻未真正改進任何內容。

這並非一個針對單一問題微調的專用工具，乃是一套跨領域的通用研究自動化框架。Recursive 用三個差異顯著的測試場景來證明這一點。

三個戰場，三個新紀錄

場景一：在固定計算預算下訓練小型模型（NanoChat Autoresearch）

此基準測試的規則源自 Andrej Karpathy（GPT-2 作者、前 OpenAI 聯創）發起的 autoresearch 項目：在一塊 GPU 上，給定五分鐘的固定訓練預算，盡可能將一個小型語言模型訓練至最低的驗證損失（以 BPB 衡量，越低越好）。

這個場景天然適合自動化研究：實驗週期短、指標方差低、作弊行為相對容易檢測。正因如此，一個名為「autoresearch@home」的社區項目已在這個基準上運行了很長時間——數十名人類研究員加上數百個 AI 智能體協作，持續將指標往下壓。

Recursive 的系統從相同的初始代碼出發，最終將驗證 BPB 從社區最佳的 0.9372 提升至 0.9109，改善了 0.0263 個 BPB。換句話說：在相同的訓練質量下，Recursive 的方案僅需對手 1.3 倍少的訓練時間即可達成。

系統發現的改進並非一招制勝。它結合了架構調整、輔助損失、注意力機制修改、優化器行為、權重衰減調度、編譯器設定等多項變動。其中最關鍵的一項發現，是一種更豐富的短上下文記憶機制：在注意力的 value 路徑中，透過雜湊表同時嵌入 bigram（相鄰詞對）和 trigram（三元組）資訊，並以可學習的閘控加權混合。不同的 Transformer 層使用不同的雜湊函數，以降低跨層重複碰撞的機率。

這個技巧在概念上與 DeepSeek Engram 等工作有所關聯，但系統以一種尚未見於公開文獻的特定變體形式，部署於固定預算場景中。

場景二：訓練速度極限競速（NanoGPT Speedrun）

如果說前一個場景是在一個活躍社區的成果上「再進一步」，這個場景則難得多。

NanoGPT Speedrun 是另一個由 Karpathy 發起、社區持續優化兩年以上的基準：在 8 塊 H100 GPU 上，將一個 GPT 模型訓練至驗證損失 3.28 所需的最短時間。自 2024 年中以來，社區已透過 83 次有記錄的貢獻，將時間從約 45 分鐘壓縮至 79.7 秒。每一個新方案都必須在極度優化的代碼基礎上再擠出時間，難度可想而知。

Recursive 的系統從現有最佳解出發，再次將訓練時間壓縮至 77.5 秒，節省了 2.2 秒。這與近期人類貢獻者所能實現的改進幅度相當甚至更佳。

系統這次找到的核心技巧包括：

FP8 精度的注意力計算。社區方案僅在模型的最後一層（語言模型頭）使用 FP8（8 位浮點）計算，而系統將 FP8 延伸至注意力層的矩陣運算，前向傳播使用 FP8 以獲得雙倍的 Tensor Core 吞吐量，反向傳播則保留 BF16 以維持穩定性。

優化器中的退火探索噪聲。系統在 NorMuon 優化器的更新步驟中注入了零均值高斯噪聲，噪聲幅度隨訓練進度線性退火至零。這有點像給優化器一個「先大膽探索、再穩健收斂」的行為模式，幫助最終解落在一個更平坦的損失盆地中。

更精簡的融合 MLP 核心。系統重寫了一個 Triton GPU 核心，前向傳播僅儲存 ReLU 平方後的激活值，反向傳播時在核心內部重新計算未平方的中間結果，省去了一次完整激活張量在高帶寬顯存中的讀寫往返——這是硬體層面的直接提速。

三個改進，分別屬於精度策略、優化器設計、GPU 核心編程三個不同的專業領域。系統在兩年社區優化的成果基礎上又找到了提升空間，本身就說明了問題。

場景三：GPU 核心優化（SOL-ExecBench）

前兩個場景都在模型訓練層面上工作，第三個場景則深入到更底層：GPU 計算核心的優化。

SOL-ExecBench 是 NVIDIA 推出的基準測試，包含 235 個核心編寫任務，涵蓋矩陣乘法、歸約、歸一化層、注意力組件、量化例程、融合模塊等多類真實工作負載。評分標準為 SOL 分數：0.5 對應基準 PyTorch 實現，1.0 對應硬體理論極限。此前的最佳公開成績為 0.699。

Recursive 的系統在 235 個核心上整體運行，允許跨任務複用發現的優化模式（例如記憶體搬運策略、分塊方式、歸約技巧），最終得分提升至 0.754，將與硬體極限的差距縮小了 18%。

這個場景意義特殊，因為核心工程是極高度專業化的領域——全球能撰寫高效 Triton/CUDA 核心的工程師寥寥無幾。而 Recursive 團隊在部落格中坦承，他們自己也不是核心領域的專家，「這些想法來自系統本身，而不是來自我們的專業背景。」

Recursive：用 AI 研究遞歸改進 AI

發布這項成果的公司 Recursive Superintelligence 成立於 2025 年底至 2026 年初，上個月剛剛結束隱身狀態，創始成員除了前 Meta FAIR 研究科學家總監田淵棟之外，還包括：

Richard Socher，Recursive 執行長，前 Salesforce 首席科學家

Alexey Dosovitskiy，前 Google DeepMind 研究科學家與 Vision Transformer 第一作者，谷歌學術引用量超過 16 萬

Tim Rocktäschel，前 DeepMind 主任科學家和 UCL 人工智能教授

Peter Norvig，前 Google 研究總監，與 Stuart Russell 合著了 AI 領域著名教科書《Artificial Intelligence: A Modern Approach》

熊才明，前 Salesforce AI 副總裁

Tim Shi，前 OpenAI 研究員，企業 AI 公司 Cresta 聯合創始人兼 CTO

Josh Tobin，Recursive 首席技術官，前 OpenAI 與 Uber ATG 研究負責人

Jeff Clune，前 Google DeepMind 研究副總裁，加拿大不列顛哥倫比亞大學計算機科學教授

而且這家初創公司一登場，甚至還未推出任何公開產品，就已獲得 6.5 億美元融資，估值高達 46.5 億美元，由 GV（谷歌風投）和 Greycroft 領投，英偉達和 AMD Ventures 跟投。

公司的核心主張與名字直接對應：構建能夠遞歸地提升自身研究能力的 AI 系統，讓 AI 參與並加速 AI 本身的研發過程，最終形成持續自我增強的閉環。

更多詳情，請參閱報導《離開 Meta 後，田淵棟剛剛官宣創業了》。

當然，在賽道層面，Recursive 並不孤單。Yann LeCun 的 AMI Labs 在今年 3 月完成 10 億美元融資，David Silver 的 Ineffable Intelligence 在 4 月拿下 11 億美元種子輪，都指向相似的方向：讓 AI 系統自主生成知識，減少人類在研究流程中的介入。但在公開成果的節奏上，Recursive 的這份「第一步」應該是目前同類公司中最具體、最可複現的技術展示之一。

The Dawn of the Recursive Paradigm

Recursive 發布的這項成果，在更宏觀的行業背景下，代表了一種新型 AI 研發範式的初步落地：讓 AI 系統本身承擔研究的主體角色。

這種「遞歸式 AI」的核心邏輯並不複雜：AI 提升 AI 的研究能力，改進後的 AI 又能更有效地提升自身，週而復始。它不依賴某個單一突破，而是依賴一個持續生成突破的系統。

這種思路對 AI 研究本身的經濟學具有重要意義。前沿模型的訓練流程仍然高度依賴少數具備特定技能的研究員，而能勝任這項工作的人全球不超過幾千個。如果自動化研究系統能接管其中哪怕一部分工作，AI 進步的速度與成本曲線都會發生變化。

這一判斷也與行業最近發出的其他聲音形成呼應。例如本文開頭提到的 Anthropic 的《When AI Builds Itself》，語氣並不輕鬆——它呼籲行業協調，在遞歸自我改進時刻到來時擁有緩衝乃至臨時叫停前沿 AI 開發的選項，以留出時間讓社會結構和對齊研究跟上節奏。更多詳情請參閱《AI 自進化過快，Anthropic 呼籲全球中止研發》。

https://www.anthropic.com/institute/recursive-self-improvement

兩件事同時發生，耐人尋味。一邊是 Anthropic 在記錄並警示這條軌跡的走向，另一邊是 Recursive 這樣的團隊，正在一步一步地讓這條軌跡變成現實。

當然，Recursive 也承認，這仍是「第一步」：當前系統在指標明確、回饋快速、作弊可檢測的場景下效果最佳，距離自主推進開放性科學問題仍有相當距離。獎勵作弊的防控將是規模化路上持續面對的核心挑戰。

但一個閉環已經開始運轉。接下來的問題，只是它會轉得多快。

本文來自微信公眾號「機器之心」（ID：almosthuman2014），作者：遞歸進化中的機器之心，編輯：Panda