幾天前,Anthropic 發表了一篇題為「When AI Builds Itself」的文章,迅速引發廣泛討論。文章揭示了一組令人矚目的內部數據:截至 2026 年 5 月,Anthropic 的程式碼庫中超過 80% 的程式碼已由 Claude 撰寫,工程師每日合併的程式碼量是 2024 年的 8 倍;在一項內部測試中,Claude 將一段訓練程式碼的運行速度從基準提升了約 52 倍,而一名有經驗的人類研究員通常需要 4 到 8 小時才能達到 4 倍加速。
Anthropic 將這條軌跡指向一個更深的目的地:「遞歸自我改進」——AI 系統自主設計、構建和訓練自身的後繼版本,人類不再驅動每一步。值得注意的是,該公司還呼籲行業協調,在遞歸自我改進時刻到來時擁有緩停乃至臨時叫停前沿 AI 開發的選項。並且 Anthropic 已經這麼做了:限制最新的 Claude Fable 5 被用於研發前沿 AI。
而現在,Recursive Superintelligence 宣布向自動化 AI 研究邁出了第一步。
這家由田淵棟聯合創立的新公司,剛剛結束隱身狀態僅一個月,如今便發布了首項公開技術成果。他們打造了一個開放式的自動化知識發現系統,並在三個基準測試上取得了 SOTA 結果。簡單來說,他們成功讓 AI 替你跑實驗。

https://x.com/tydsh/status/2065062838255649082
第一步成果:讓 AI 替你跑實驗
Recursive 這第一項公開技術成果名為「First Steps Toward Automated AI Research」(邁向自動化 AI 研究的第一步)。

推文:https://x.com/Recursive_SI/status/2064980090702962699
倉庫地址:https://github.com/recursive-org/first-steps-toward-automated-ai-research
部落格地址:https://www.recursive.com/articles/first-steps-toward-automated-ai-research
In a nutshell, the core of this work is: building a system that can autonomously drive the AI research loop and achieving new state-of-the-art results on three benchmarks.
在正式拆解成果之前,有必要先理解這套系統的設計邏輯。
傳統的 AI 研究流程是一個高度依賴人的「提想法—寫代碼—跑實驗—分析結果—再提想法」的閉環。它的效率瓶頸不在算力,而在人。全世界能設計前沿訓練流程的研究員屈指可數,而每一轮實驗迭代都需要他們高度介入。
Recursive 的系統試圖將這個閉環自動化。
其運作方式為:針對明確的優化目標,系統自動提出實驗構想、實現代碼、運行驗證、從中學習,並決定下一步的搜索方向。多條研究路線可並行推進,有效的發現可跨任務複用,獎勵作弊(reward hacking)的檢測機制亦內嵌於整個循環中,以防止系統「走捷徑」僅提升評測指標卻未真正改進任何內容。
這並非一個針對單一問題微調的專用工具,乃是一套跨領域的通用研究自動化框架。Recursive 用三個差異顯著的測試場景來證明這一點。
三個戰場,三個新紀錄

場景一:在固定計算預算下訓練小型模型(NanoChat Autoresearch)
此基準測試的規則源自 Andrej Karpathy(GPT-2 作者、前 OpenAI 聯創)發起的 autoresearch 項目:在一塊 GPU 上,給定五分鐘的固定訓練預算,盡可能將一個小型語言模型訓練至最低的驗證損失(以 BPB 衡量,越低越好)。
這個場景天然適合自動化研究:實驗週期短、指標方差低、作弊行為相對容易檢測。正因如此,一個名為「autoresearch@home」的社區項目已在這個基準上運行了很長時間——數十名人類研究員加上數百個 AI 智能體協作,持續將指標往下壓。
Recursive 的系統從相同的初始代碼出發,最終將驗證 BPB 從社區最佳的 0.9372 提升至 0.9109,改善了 0.0263 個 BPB。換句話說:在相同的訓練質量下,Recursive 的方案僅需對手 1.3 倍少的訓練時間即可達成。



系統發現的改進並非一招制勝。它結合了架構調整、輔助損失、注意力機制修改、優化器行為、權重衰減調度、編譯器設定等多項變動。其中最關鍵的一項發現,是一種更豐富的短上下文記憶機制:在注意力的 value 路徑中,透過雜湊表同時嵌入 bigram(相鄰詞對)和 trigram(三元組)資訊,並以可學習的閘控加權混合。不同的 Transformer 層使用不同的雜湊函數,以降低跨層重複碰撞的機率。
這個技巧在概念上與 DeepSeek Engram 等工作有所關聯,但系統以一種尚未見於公開文獻的特定變體形式,部署於固定預算場景中。
場景二:訓練速度極限競速(NanoGPT Speedrun)
如果說前一個場景是在一個活躍社區的成果上「再進一步」,這個場景則難得多。
NanoGPT Speedrun 是另一個由 Karpathy 發起、社區持續優化兩年以上的基準:在 8 塊 H100 GPU 上,將一個 GPT 模型訓練至驗證損失 3.28 所需的最短時間。自 2024 年中以來,社區已透過 83 次有記錄的貢獻,將時間從約 45 分鐘壓縮至 79.7 秒。每一個新方案都必須在極度優化的代碼基礎上再擠出時間,難度可想而知。
Recursive 的系統從現有最佳解出發,再次將訓練時間壓縮至 77.5 秒,節省了 2.2 秒。這與近期人類貢獻者所能實現的改進幅度相當甚至更佳。

系統這次找到的核心技巧包括:
FP8 精度的注意力計算。社區方案僅在模型的最後一層(語言模型頭)使用 FP8(8 位浮點)計算,而系統將 FP8 延伸至注意力層的矩陣運算,前向傳播使用 FP8 以獲得雙倍的 Tensor Core 吞吐量,反向傳播則保留 BF16 以維持穩定性。
優化器中的退火探索噪聲。系統在 NorMuon 優化器的更新步驟中注入了零均值高斯噪聲,噪聲幅度隨訓練進度線性退火至零。這有點像給優化器一個「先大膽探索、再穩健收斂」的行為模式,幫助最終解落在一個更平坦的損失盆地中。
更精簡的融合 MLP 核心。系統重寫了一個 Triton GPU 核心,前向傳播僅儲存 ReLU 平方後的激活值,反向傳播時在核心內部重新計算未平方的中間結果,省去了一次完整激活張量在高帶寬顯存中的讀寫往返——這是硬體層面的直接提速。
三個改進,分別屬於精度策略、優化器設計、GPU 核心編程三個不同的專業領域。系統在兩年社區優化的成果基礎上又找到了提升空間,本身就說明了問題。
場景三:GPU 核心優化(SOL-ExecBench)
前兩個場景都在模型訓練層面上工作,第三個場景則深入到更底層:GPU 計算核心的優化。
SOL-ExecBench 是 NVIDIA 推出的基準測試,包含 235 個核心編寫任務,涵蓋矩陣乘法、歸約、歸一化層、注意力組件、量化例程、融合模塊等多類真實工作負載。評分標準為 SOL 分數:0.5 對應基準 PyTorch 實現,1.0 對應硬體理論極限。此前的最佳公開成績為 0.699。


Recursive 的系統在 235 個核心上整體運行,允許跨任務複用發現的優化模式(例如記憶體搬運策略、分塊方式、歸約技巧),最終得分提升至 0.754,將與硬體極限的差距縮小了 18%。
這個場景意義特殊,因為核心工程是極高度專業化的領域——全球能撰寫高效 Triton/CUDA 核心的工程師寥寥無幾。而 Recursive 團隊在部落格中坦承,他們自己也不是核心領域的專家,「這些想法來自系統本身,而不是來自我們的專業背景。」
Recursive:用 AI 研究遞歸改進 AI
發布這項成果的公司 Recursive Superintelligence 成立於 2025 年底至 2026 年初,上個月剛剛結束隱身狀態,創始成員除了前 Meta FAIR 研究科學家總監田淵棟之外,還包括:

Richard Socher,Recursive 執行長,前 Salesforce 首席科學家
Alexey Dosovitskiy,前 Google DeepMind 研究科學家與 Vision Transformer 第一作者,谷歌學術引用量超過 16 萬
Tim Rocktäschel,前 DeepMind 主任科學家和 UCL 人工智能教授
Peter Norvig,前 Google 研究總監,與 Stuart Russell 合著了 AI 領域著名教科書《Artificial Intelligence: A Modern Approach》
熊才明,前 Salesforce AI 副總裁
Tim Shi,前 OpenAI 研究員,企業 AI 公司 Cresta 聯合創始人兼 CTO
Josh Tobin,Recursive 首席技術官,前 OpenAI 與 Uber ATG 研究負責人
Jeff Clune,前 Google DeepMind 研究副總裁,加拿大不列顛哥倫比亞大學計算機科學教授
而且這家初創公司一登場,甚至還未推出任何公開產品,就已獲得 6.5 億美元融資,估值高達 46.5 億美元,由 GV(谷歌風投)和 Greycroft 領投,英偉達和 AMD Ventures 跟投。
公司的核心主張與名字直接對應:構建能夠遞歸地提升自身研究能力的 AI 系統,讓 AI 參與並加速 AI 本身的研發過程,最終形成持續自我增強的閉環。
更多詳情,請參閱報導《離開 Meta 後,田淵棟剛剛官宣創業了》。
當然,在賽道層面,Recursive 並不孤單。Yann LeCun 的 AMI Labs 在今年 3 月完成 10 億美元融資,David Silver 的 Ineffable Intelligence 在 4 月拿下 11 億美元種子輪,都指向相似的方向:讓 AI 系統自主生成知識,減少人類在研究流程中的介入。但在公開成果的節奏上,Recursive 的這份「第一步」應該是目前同類公司中最具體、最可複現的技術展示之一。
The Dawn of the Recursive Paradigm
Recursive 發布的這項成果,在更宏觀的行業背景下,代表了一種新型 AI 研發範式的初步落地:讓 AI 系統本身承擔研究的主體角色。
這種「遞歸式 AI」的核心邏輯並不複雜:AI 提升 AI 的研究能力,改進後的 AI 又能更有效地提升自身,週而復始。它不依賴某個單一突破,而是依賴一個持續生成突破的系統。
這種思路對 AI 研究本身的經濟學具有重要意義。前沿模型的訓練流程仍然高度依賴少數具備特定技能的研究員,而能勝任這項工作的人全球不超過幾千個。如果自動化研究系統能接管其中哪怕一部分工作,AI 進步的速度與成本曲線都會發生變化。
這一判斷也與行業最近發出的其他聲音形成呼應。例如本文開頭提到的 Anthropic 的《When AI Builds Itself》,語氣並不輕鬆——它呼籲行業協調,在遞歸自我改進時刻到來時擁有緩衝乃至臨時叫停前沿 AI 開發的選項,以留出時間讓社會結構和對齊研究跟上節奏。更多詳情請參閱《AI 自進化過快,Anthropic 呼籲全球中止研發》。

https://www.anthropic.com/institute/recursive-self-improvement
兩件事同時發生,耐人尋味。一邊是 Anthropic 在記錄並警示這條軌跡的走向,另一邊是 Recursive 這樣的團隊,正在一步一步地讓這條軌跡變成現實。
當然,Recursive 也承認,這仍是「第一步」:當前系統在指標明確、回饋快速、作弊可檢測的場景下效果最佳,距離自主推進開放性科學問題仍有相當距離。獎勵作弊的防控將是規模化路上持續面對的核心挑戰。
但一個閉環已經開始運轉。接下來的問題,只是它會轉得多快。
本文來自微信公眾號「機器之心」(ID:almosthuman2014),作者:遞歸進化中的機器之心,編輯:Panda
