リカーシブ・スーパーインテリジェンス、初の自動化AI研究システムを公開

数日前、Anthropicは「When AI Builds Itself」と題した記事を公開し、広範な議論を呼びました。この記事は、2026年5月までにAnthropicのコードベースの80%以上がClaudeによって作成されたという注目すべき内部データを明らかにしました。エンジニアが毎日マージするコード量は2024年の8倍に達しており、内部テストではClaudeが訓練コードの実行速度をベンチマークから約52倍向上させました。一方、経験豊富な人間の研究者は通常、4〜8時間かけて4倍の高速化を達成します。

Anthropicは、この軌道を「再帰的自己改善」、つまりAIシステムが自ら後続バージョンを設計・構築・訓練し、人間がすべてのステップを駆動しなくなるというより深い目的地へと導いている。注目すべきは、同社が業界全体の協調を呼びかけ、再帰的自己改善の瞬間が訪れた際に、最先端AI開発を一時的に停止または延期する選択肢を確保しようとしている点である。また、Anthropicはすでにその実践を始めている：最新のClaude Fable 5が最先端AIの研究開発に使用されることを制限している。

そして現在、Recursive Superintelligenceは、自動化AI研究への第一歩を発表しました。

田淵棟が共同設立したこの新会社は、隠れ家状態を終えてからたった1か月で、初の公開技術成果を発表しました。彼らはオープンな自動化知識発見システムを構築し、3つのベンチマークテストでSOTAの結果を達成しました。簡単に言えば、AIがあなたの代わりに実験を実行できるようにすることに成功しました。

https://x.com/tydsh/status/2065062838255649082

第一の成果：AIに実験を代行させる

Recursive のこの最初の公開技術成果は、「First Steps Toward Automated AI Research」（迈向自动化 AI 研究的第一步）と名付けられています。

推文：https://x.com/Recursive_SI/status/2064980090702962699
リポジトリアドレス：https://github.com/recursive-org/first-steps-toward-automated-ai-research
ブログアドレス：https://www.recursive.com/articles/first-steps-toward-automated-ai-research

要一句话概括的话，这项工作的核心是：构建了一个能够自主推动AI研究循环的系统，并在三个基准测试中刷新了最佳成绩。

正式な成果を分解する前に、このシステムの設計ロジックを理解することが必要です。

従来のAI研究プロセスは、人間が強く依存する「アイデアの提案—コードの記述—実験の実行—結果の分析—再びアイデアの提案」という閉ループである。その効率のボトルネックは計算資源ではなく、人間にある。世界中で最先端のトレーニングプロセスを設計できる研究者はごくわずかであり、各実験のイテレーションには彼らの高度な関与が必要である。

Recursiveのシステムは、この閉ループを自動化しようとしています。

その仕組みは、明確な最適化目標に基づいて、システムが自動的に実験のアイデアを提案し、コードを実装し、検証を実行して学習した後、次の探索方法を決定します。複数の研究路線を並行して推進でき、有効な発見は複数のタスク間で再利用可能です。また、報酬の不正利用（reward hacking）を検出するメカニズムがこのサイクルに組み込まれており、システムが評価指標を操作して実際の改善を伴わずに「近道」を取るのを防ぎます。

これは単一の問題に特化して微調整された専用ツールではなく、複数の分野にまたがる汎用的な研究自動化フレームワークです。Recursiveは、3つの著しく異なるテストシナリオを通じてこれを実証しています。

3つの戦場、3つの新記録

シナリオ1：固定計算予算での小さなモデルのトレーニング（NanoChat Autoresearch）

このベンチマークのルールは、Andrej Karpathy（GPT-2の作者、元OpenAI共同創設者）が主導するautoresearchプロジェクトに由来します：1枚のGPUを使用し、5分という固定のトレーニング予算内で、小型言語モデルを可能な限り最低の検証損失（BPBで測定、値が低いほど良い）に訓練すること。

このシナリオは自動化研究に天然に適している：実験サイクルが短く、指標の分散が低く、不正行為の検出が比較的容易である。そのため、「autoresearch@home」というコミュニティプロジェクトは、このベンチマーク上で長期間にわたり稼働しており、数十人の人間研究者と数百のAIエージェントが協力して、指標を継続的に低下させている。

Recursiveのシステムは、同じ初期コードから出発し、BPBの検証値をコミュニティ最良の0.9372から0.9109へと0.0263改善しました。別の言い方をすれば、同じ訓練品質を達成するため、Recursiveのソリューションは対手の1.3倍少ない訓練時間で済みます。

システムが発見した改善点は単一の解決策ではありません。アーキテクチャの調整、補助損失、注意メカニズムの変更、オプティマイザの挙動、重み減衰スケジューリング、コンパイラ設定など、複数の変更が組み合わさっています。その中で最も重要な発見は、より豊かな短いコンテキストメモリメカニズムです。これは、注意のvalueパスにおいて、ハッシュテーブルを用いてbigram（隣接する単語対）とtrigram（三連単語）の情報を同時に埋め込み、学習可能なゲートで重み付き混合するものです。異なるTransformer層は異なるハッシュ関数を使用し、層間での繰り返し衝突の確率を低減しています。

このテクニックは、DeepSeek Engram などの研究と概念的に関連していますが、システムはそれを、公開文献には見られない特定の変形形式で固定予算シナリオに適用しています。

シナリオ2：トレーニング速度極限競速（NanoGPT Speedrun）

前のシナリオが活発なコミュニティの成果を「さらに進める」ものであるならば、このシナリオははるかに難しい。

NanoGPT Speedrunは、Karpathyが開始し、コミュニティが2年以上にわたり最適化を続けてきた別のベンチマークです。8枚のH100 GPUを使用して、GPTモデルの検証損失を3.28まで低下させるために必要な最短時間です。2024年半ば以来、コミュニティは83回の記録された貢献を通じて、所要時間を約45分から79.7秒まで短縮してきました。新たな手法を導入するには、すでに極限まで最適化されたコードからさらに時間を削り出す必要があり、その難易度は想像に難くありません。

リカーシブなシステムは、既存の最適解を出発点として、トレーニング時間を77.5秒にさらに圧縮し、2.2秒を節約しました。これは、最近の人類の貢献が達成した改善幅と同等、あるいはそれ以上です。

今回のシステムが特定したコアテクニックには以下が含まれます：

FP8精度のアテンション計算。コミュニティのソリューションはモデルの最終層（言語モデルヘッド）でのみFP8（8ビット浮動小数点）計算を使用するが、本システムはFP8をアテンション層の行列演算に拡張し、フォワードプロパゲーションではFP8を使用してTensor Coreのスループットを2倍にし、バックプロパゲーションでは安定性を維持するためにBF16を保持する。

オプティマイザーにおけるアニーリング探索ノイズ。システムは、NorMuonオプティマイザーの更新ステップに、平均値がゼロのガウスノイズを注入し、そのノイズの振幅は訓練の進行に伴い線形的にゼロまで減少します。これは、オプティマイザーに「初期は積極的に探索し、後期は安定して収束する」という行動パターンをもたらし、最終的な解がより平らな損失バレーに収束するのを助けます。

より簡素化されたMLPカーネルの統合。システムはTriton GPUカーネルを再設計し、フォワードプロパゲーションではReLUの平方後の活性化値のみを保存し、バックプロパゲーションではカーネル内で平方前の中間結果を再計算することで、高帯域幅メモリにおける活性化テンソルの完全な読み書きループを削減——これはハードウェアレベルでの直接的な速度向上です。

精度戦略、最適化器設計、GPUカーネルプログラミングの3つの異なる専門分野における3つの改善。システムが2年のコミュニティ最適化の成果の上にさらに改善の余地を見つけたこと自体が、その問題を示している。

シナリオ3：GPUカーネル最適化（SOL-ExecBench）

前の2つのシナリオはモデル訓練のレベルで動作し、3番目のシナリオはより低レベルであるGPU計算カーネルの最適化に深く踏み込みます。

SOL-ExecBenchは、NVIDIAが提供するベンチマークで、行列乗算、リダクション、正規化層、アテンションコンポーネント、量子化ルーチン、フュージョンブロックなど、235のカーネルタスクを含み、多様な実際のワークロードをカバーしています。スコアリング基準はSOLスコアで、0.5はPyTorchの基本実装に相当し、1.0はハードウェアの理論的限界に相当します。これまでの最高公開スコアは0.699でした。

Recursive システムは 235 個のコア上で全体的に動作し、発見された最適化パターン（メモリ転送戦略、ブロッキング方式、還元テクニックなど）をタスク間で再利用可能にすることで、最終スコアを 0.754 まで向上させ、ハードウェアの限界との差を 18% 縮小しました。

このシナリオは特別な意味を持っています。なぜなら、カーネルエンジニアリングは非常に専門的な分野であり、効率的なTriton/CUDAカーネルを記述できるエンジニアは世界中でもごくわずかだからです。Recursiveチームはブログで、自分たちもカーネル分野の専門家ではないと認め、「これらのアイデアは私たちの専門知識ではなく、システム自体から生まれたものです。」

Recursive：AIを使って递归を改善し、AIを進化させる

この成果を発表した企業Recursive Superintelligenceは、2025年末から2026年初頭に設立され、先月まで隠密状態を続けていた。創設メンバーには、元Meta FAIR研究科学者ディレクターの田淵棟をはじめ、以下が含まれる：

リチャード・ソッカー、Recursive CEO、元Salesforce首席科学者

アレクセイ・ドソヴィツキー、元Google DeepMind研究科学者でVision Transformerの第一著者。Google Scholarでの引用数は16万以上。

ティム・ロクターシェル、元DeepMind元本科学者およびUCL人工知能教授

ピーター・ノーヴィグ、元Google研究ディレクターは、スチュアート・ラッセルと共同でAI分野の有名な教科書『人工知能：現代的なアプローチ』を執筆した。

Caiming Xiong、元Salesforce AI副社長

Tim Shi、元OpenAI研究員、企業AI企業Cresta共同設立者兼CTO

ジョシュ・トビン、Recursive CTO、元OpenAIおよびUber ATG研究責任者

ジェフ・クレーン、元Google DeepMind研究副社長、カナダ・ブリティッシュコロンビア大学コンピューターサイエンス教授

このスタートアップは、まだ公開製品すら持たない段階で、GV（グーグルベンチャーズ）とGreycroftが主導し、NVIDIAとAMD Venturesが参加する形で、6億5000万ドルの資金調達を実現し、時価総額は46億5000万ドルに達した。

会社の核心的な主張は名前と直接対応しています：自らの研究能力を再帰的に向上させるAIシステムを構築し、AIがAI自体の開発プロセスに参加し加速させることで、持続的な自己強化の閉ループを実現します。

詳細は、記事『Metaを退職後、田淵棟が創業を発表』をご覧ください。

もちろん、レカーシブはこの分野で孤立しているわけではない。ヤン・ルカンのAMI Labsは今年3月に10億ドルの資金調達を完了し、デビッド・シルバーのIneffable Intelligenceは4月に11億ドルのシードラウンドを獲得しており、両者とも同様の方向性を示している：AIシステムが自ら知識を生成し、研究プロセスにおける人間の関与を減らすことだ。しかし、公開された成果のスピードにおいて、レカーシブのこの「第一歩」は、現在の同種の企業の中で最も具体的で、最も再現可能な技術的デモンストレーションの一つである。

再帰パラダイムの夜明け

Recursiveが発表したこの成果は、より広範な業界の文脈において、AIシステム自体を研究の主体とする新しいAI開発パラダイムの初期的な実現を意味している。

この「再帰的AI」の核心ロジックはそれほど複雑ではない：AIがAIの研究能力を向上させ、改良されたAIがさらに自らを効果的に向上させるというサイクルを繰り返す。単一の画期的突破に依存するのではなく、継続的に突破を生み出すシステムに依存している。

この発想は、AI研究そのものの経済に重要な意味を持つ。最先端モデルのトレーニングプロセスは、依然として特定のスキルを持つ少数の研究者に大きく依存しており、この仕事を担える人物は世界で数千人にも満たない。もし自動化された研究システムがそのうちの一部でも担えるようになれば、AIの進歩の速度とコスト曲線は変化するだろう。

この判断は、業界が最近発信した他の声とも一致しています。たとえば、本文の冒頭で言及されたAnthropicの『When AI Builds Itself』は、軽いトーンではなく、再帰的な自己改善の瞬間が訪れた際に、社会構造やアライメント研究が追いつく時間を確保するために、先端AI開発を一時的に停止または延期する選択肢を業界が協調して持つよう呼びかけています。詳細については、『AIの自進化が速すぎ、Anthropicが全球的な開発停止を呼びかけ』をご覧ください。

https://www.anthropic.com/institute/recursive-self-improvement

二つの出来事が同時に起こっており、興味深い。一方でAnthropicがこの軌道の走向を記録し警告している一方で、Recursiveのようなチームが、この軌道を段階的に現実のものにしている。

もちろん、Recursive自身も、これはあくまで「第一歩」であると認めている。現在のシステムは、指標が明確でフィードバックが迅速かつ不正が検出可能なシナリオで最も効果を発揮するが、自律的にオープンな科学的課題を推進するにはまだ大きな距離がある。不正への報酬を防ぐことは、スケーリング路上で継続的に直面する核心的な課題となる。

しかし、一つの閉ループはすでに動き始めています。次に問題となるのは、それがどれほど速く回転するかです。

本文は微信公众号「機械の心」（ID：almosthuman2014）より、著者：再帰的に進化する機械の心、編集：Panda