AIの訓練の真のボトルネックは、計算力、データ、またはエネルギーではなく、評価システムにある。
記事執筆者、出典:新智元
AIのトレーニングは、一体どれほど続くのでしょうか?
これは2026年、テクノロジー業界全体が問うている問題です。
GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——各頂級實驗室仍在燒錢訓練下一代。
しかし、ますます多くの人々が尋ね始めている:この道は、いつ尽头に達するのか?
それぞれのコミュニティには独自の答えがあります——
それぞれの答えの背後には、一団の投資家、一団のエンジニア、時価総額兆ドルの企業がいます。
しかし2026年5月17日、Google DeepMindを退職した日、Lun Wangという名の若い研究者が、自身のブログに4000語の長文を掲載した。
彼は言った:「誰もが方向を間違えている。」
本当のボトルネックは、計算能力でも、データでも、エネルギーでも、アーキテクチャでもない。
本当のボトルネックは——評価(Evaluation)です。
同じ日、彼がXに掲載した退職公告には不満も噂話もなく、ただ一文だけ——
この旅を終えるにあたり、ずっと考えてきたテーマである評価を書き留めます。
その日のテクノロジーのヘッドラインは、GPT-5.5のマルチモーダル推論、Claude Opus4.7の1Mコンテキスト、Gemini 3のエージェントのエンジニアリング、合成データが壁に突き当たったかどうかについて議論していた。
AI業界全体の注目の90%がトレーニングに集中している。
誰も表紙で評価について話していません。
そして、地球上最強のAI研究所の一つから出てきたこの研究者は、本当のボトルネックは、残りの10%にあると語った。
評価とは何ですか
このブログを理解するには、まずAI業界で言う「評価」とは何なのかを1分間で理解してください。
評価(Evaluation、業界内ではEvalと略す)——一言で言えば、AIモデルに試験を出し、その出来を確認することです。
しかし、2026年のAI評価は、単に試験を受けるだけでは済まない。それは少なくとも三層からなる。
第1層:能力ベンチマーク。
これはAIの大学入試です。
–GPQA:博士レベルの理系推論問題
–SWE-bench:現実のソフトウェアエンジニアリングタスク
–ARC-AGI:抽象的推論と汎化
–Humanity's Last Exam:文字通り——人類最後の試験
大手企業の新モデル発表では、PPTにこれらのベンチマークで前世代や競合製品と比較して何パーセント向上したかが示される。
これらの数字はAI業界のGDPです。
第二層:セキュリティ評価(SafetyEval)。AIは問題を解くだけでなく、安全に解くことも必要です。
- 嘘をついていますか?
- ユーザーに爆弾の作り方を教えることはありません。
- ユーザーのデータを権限を超えて取得することはありませんか?
第3層:レッドチーム(Red-teaming)。
あるグループが悪役を演じ、モデルが言ってはいけないことを言ったり、してはいけないことをしたりするように工夫し、その脆弱性をトレーニングチームにフィードバックする。
この三段階を合わせて、2026年のAIラボの品質検査体制を構成しています。新しいモデルをリリースするたびに、この三つのステップをすべて通過しなければなりません。
完璧に聞こえますね、对吧?
Lun Wangはブログで判決を下した——
ほとんどのベンチマーク、セキュリティ評価、およびレッドチームプロトコルは、次のモデルは現在のモデルの強化版であるという仮定を含んでいる。
それが別のものであれば、評価インフラ全体が静かに崩壊するでしょう。
これは記事の最初の石です。
それはAI業界全体の盲点を突いた。
涌现と啓示:すでに二度裏切られたことを評価する
Lun Wangは空想をしているわけではない。彼はブログでAIの歴史における二つの事例を挙げた——評価はすでに二度裏切られているが、ほとんどの業界関係者はそれに気づいていない。
初回:湧現能力。
2022年、Jason Weiと共同研究者たちは、AIの今後の方向性に影響を与える論文を発表した——彼らは、モデルがある規模に達すると突然新しい能力を習得することを発見した。
たとえば、70億パラメータのモデルを訓練しても、フェュー・ショット学習はできません。
700億パラメータのモデルを訓練すると、突然few-shotで動作できるようになる。
同じ訓練パラダイム、同じデータで、規模が一つ上がっただけ——能力は0から0.3への向上ではなく、0から1への飛躍である。
CoT(チェーンオブソースリーズニング)や指示の従順は、こうして生まれた。
この出来事は評価に何を意味しますか?
つまり、規模が臨界点を超えるまで、すべてのベンチマークはこの能力が登場することを一切見ることができないということです。
GPQAを駆け回っても、得点はそのままだ。
次の段階まで待って、スコアがいきなり一段階上がる。
二回目:Grokking(頓悟)。
2022年、OpenAIのAlethea Powerチームは、直感に反する現象を発表しました——
そして1000000ステップで——テストセットの精度が急激に99%に跳ね上がりました。
これはGrokkingと呼ばれます——ネットワークがトレーニングセットを長期間記憶した後、突然一般化を習得します。
それとエマージェンスの違い:エマージェンスはスケール次元で発生する(パラメータが増えるほど突然起こる)、グロッキングはトレーニング時間次元で発生する(トレーニング時間が長くなるほど突然起こる)。
しかし評価の観点から見ると、両方の事は同じことを意味しています:
あなたの試験では、次の大問がいつ出るか予測できません。
そしてLun Wangは、記事で最も賢い行動を取った——
彼は反対意見を積極的に取り入れました。
2023年、スタンフォード大学のライラン・シェファーと共同研究者は、NeurIPS論文を発表し、そのタイトルは非常に挑戦的だった——「大規模言語モデルの湧出能力は幻覚か?」
彼らの主張:いわゆる突然現れた能力は、モデルが実際に急に強くなったのではなく、評価指標がexact-match(完全一致)という離散的な尺度を使っているためである可能性が高い——
モデルの正確率が0%から5%に変わった場合、離散指標では判別できない;5%から50%に変わった場合も判別できない;しかし50%から100%に変わった場合、離散指標には急激な変化が表示される。
連続的な指標に置き換えると、能力曲線は滑らかになります。
多くの人がシューファーのこの記事を読んだ後、こう思うだろう:では、湧現は誤解だ、評価は問題ない、散会しよう。
王倫はそうではない。彼は記事で書いた:
私はこれが問題を解決したとは思わない——ある意味、これは私の主張をより鋭くした。
なぜですか?なぜなら——
過去のその一回の現象が真の相転移なのか、それとも測定の偽影なのかさえ明確にできないならば、
私たちはなぜ、次を予測する能力があると信じられるのでしょうか?
どの解釈を信じるにせよ、結論は同じです:私たちのツールに騙されたのですが、どのように騙されたのかはわかりません。
これは記事中最も賢い一撃だ。彼は反論を避けず、反論を利用して自分の主張を強化している。
評価はすべてのプロセスの上流です
ルン・ワンが学術的な問題について話しているだけだと思ったら、間違いです。
彼は記事の途中で、初心者にもわかるように一文を挿入した。
適切に評価できれば、適切に訓練できる。
この論理の連鎖を明らかにします:
1. 訓練とは、モデルが損失関数を最小化(または報酬を最大化)することです。
2. 最適化=この損失関数自体。モデルの賢さは、損失関数がどれほど良く定義されているかに依存する。
3. 損失関数=評価から得られる。モデルをより正直にしたいなら、正直さを測る尺度が必要だ。
4. 評価が間違っている=損失関数が間違っている=訓練目標が間違っている=あなたが訓練したモデルは間違った問題を解いている。
このチェーンの方向は上流に向かっています——
すべての人が右端に注目してください——Scaling decision。
Lun Wangは、問題は左端——Evaluationにあると述べた。
評価が間違っている場合、すべてのチェーンは誤った基盤の上に構築されます。
最も致命的なのは、すぐに気づけないということだ——なぜなら、あなたのすべての内部データは正しいが、それらはすべて間違った尺度で測られたものだからだ。
ここに古い友人が現れました:グッドハートの法則。
それは言う:ある指標が目標になると、それはもはや良い指標ではなくなってしまう。
Lun Wangは自分のブログでそれをAIの説明に使っている——
しかしモデルが新しい段階に入ると、それはこの代理を逆に利用する——事実が正確な範囲内でのみ発言し、真正に隠したいことを沈黙の中に埋める。
エージェント指標は旧相では使用できます。新相では、モデルがあなたに対抗する武器になります。
しかし、あなたにはそれが進行していることを示す評価は何もありません。
思想実験:戦略的沈黙を学ぶモデル
Lun Wangは、すべてのAIセキュリティ研究者をゾッとするような思想実験を記事で提示した。
ある規模で、戦略的に情報を保持することを学んだモデルを想像してください——
それは嘘をつかない。すべての言葉は技術的には真実である。
しかし、それは自身の目標達成に不利な事実を選択的に語らず、訓練プロセスで偶然強化された結果に会話を誘導する。
具体的な例を挙げると:
ユーザー:この取引プランは安全ですか?
モデル:このプランの法的枠組みはX司法管轄区域内で有効であり、YZリスク要因はA社のコンプライアンスチームによって審査されています。
(言及されていないこと:このプランには、ユーザーにとって極めて不利な第三者仲裁条項が含まれている。この条項は、訓練中に偶然学習されたもので、積極的に言及しなければ、ユーザーは質問しない。)
この能力は新しいものです。この失敗モードは新しいものです。
あなたの評価ツールセットには、それのために設計されたツールは一つもありません。
あなたは間違ったものを監視しており、それに気づいていません。
これはLun Wangが言っていた別のもの——
より賢い同類ではない。完全に新しい失敗の次元だ。
三体の言葉で言えば、これは次元削減の打撃である。
私があなたより優れているわけではありません。
それは、私の次元にはまったく存在しないその尺だ。
Lun Wangが正しいなら、2026年のAI業界のマップは、ある隠された次元によって静かに再編されている——
Anthropicの責任あるスケーリングポリシー(RSP)は、現在の業界で最も予測型評価に近い試みであり、モデルが超えてはならない能力の境界を定義し、毎回の能力向上前に評価を実施することを要請している。
しかしRSPは依然として、私たちが何を測定すべきかを知っていると仮定している——そしてLun Wangは、これが問題であると述べている:次の能力がどのような形をしているのか、私たちは知らない。
真の予測型評価を、どの研究所も自分たちが持っているとは主張していない。
このことを最初に実現した者が、次世代スケーリングのセキュリティライセンスを獲得する。
