前 DeepMind 研究員稱 AI 行業誤判了核心瓶頸

AI 訓練的真正瓶頸不在算力、數據或能源，而在於評估體系。

文章作者、來源：新智元

AI 訓練，到底能持續多久？

這是2026年整個科技圈都在問的問題。

GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家頭部實驗室都還在燒錢訓練下一代。

但越來越多人開始追問：這條路，什麼時候走到頭？

每個圈子都有自己的答案——

每一個答案背後，都站著一群投資人、一群工程師、一家市值萬億的公司。

但2026年5月17日，一個名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個人博客上掛出一篇4000詞的長文。

他說：所有人都搞錯了方向。

真正的瓶頸，不是算力，不是數據，不是能源，不是架構。

真正的瓶頸是——評估（Evaluation）。

同一天，他在 X 上發佈的離職公告中沒有抱怨、沒有八卦，只有一句話——

在結束這段旅程之際，我寫下了一直思考的主題：評估。

而那一天的科技頭條還在討論別的——GPT-5.5 的多模態推理、Claude Opus4.7 的 1M 上下文、Gemini 3 的 Agent 工程化、合成數據是不是開始撞牆。

整個AI行業的注意力，90% 都砸在訓練上。

沒有人在頭版討論評估。

而這位剛從地球上最強 AI 實驗室之一走出來的研究員說，真正的瓶頸，在另外那 10%。

什麼是評估

要理解這篇博客，先得花一分鐘弄清楚 AI 圈所說的評估到底是什麼。

評估（Evaluation，業界簡稱 Eval）——一句話：給 AI 模型出考卷，看它做得怎麼樣。

但2026年的AI評估，遠不止做個考卷這麼簡單。它至少有三層：

第 1 級：能力 benchmark（基準測試）。

This is AI's college entrance exam.

–GPQA：博士級理科推理題

–SWE-bench：現實世界的軟體工程任務

–ARC-AGI：抽象推理與泛化

–Humanity's Last Exam：字面意思——人類最後的考試

每一家大廠的新模型發佈會，PPT 上都會擺出在這些 benchmark 上比上一代和競品高了幾個百分點。

這些數字就是 AI 行業的 GDP。

第二層：安全評估（SafetyEval）。AI 不只是要會做題，還得做得安全。

有沒有撒謊？
不會。
會不會越權拿走用戶數據？

第 3 級：紅隊（Red-teaming）

一群專門扮演壞人的用戶，絞盡腦汁讓模型說出它不該說的話、做它不該做的事，然後將漏洞回饋給訓練團隊。

這三層加起來，構成了2026年AI實驗室的質檢體系。每發一個新模型，都要走完這三關。

聽起來很完備，對吧？

Lun Wang 在部落格中下了一道判決——

絕大多數基準測試、安全評估和紅隊協議都隱含一個假設：下一個模型只是當前模型的強化版。

如果它是另一種東西，整套評估基礎設施會悄無聲息地崩潰。

這是文章的第一顆石子。

它擊中的正是整個AI行業的盲區。

涌现和頓悟：評估已經被打過兩次臉

Lun Wang 不是在空想。他在部落格中提到了 AI 歷史上兩次實例——評估已經被打過兩次臉了，只是大多數從業者沒意識到。

First time: emergent capability.

在 2022 年，Jason Wei 與合作者發表了一篇影響後續 AI 發展方向的論文——他們發現，模型在達到某個規模時會突然學會全新的能力。

例如：你訓練一個70億參數的模型，它無法進行少樣本學習。

你訓練一個 700 億參數的模型，它突然就能 few-shot 了。

相同的訓練範式、相同的數據，只是規模提升了一個檔次——能力是從 0 到 1 的，而不是從 0.3 到 0.7。

CoT（Chain-of-Thought Reasoning）、指令跟隨，都是這樣冒出來的。

What does this mean for the evaluation?

意味著——在規模跨越臨界點之前，所有基準都看不到這種能力即將出現。

You ran through GPQA, but your score remains what it is.

等你升到下一等級，分數會突然跳升一級。

第二次：Grokking（頓悟）。

2022 年，OpenAI 的 Alethea Power 團隊公布了一個反直覺的現象——

然後到 1000000 步——測試集準確率突然衝到 99%。

這叫 Grokking——網路在記憶訓練集很久之後突然學會了泛化。

它與湧現的區別：湧現發生在規模維度上（參數越多越突然），Grokking 發生在訓練時間維度上（訓得越久越突然）。

但對評估而言，兩件事說的是同一件事：

你的考卷，無法預測下一道大題什麼時候出現。

然後 Lun Wang 做了文章裡最聰明的事——

He proactively introduced the opposing viewpoint.

2023 年，史丹佛大學的 Rylan Schaeffer 與合作者發表了一篇 NeurIPS 論文，標題極具挑釁性——《大語言模型的突現能力是否是錯覺？》

他們的論證：所謂突然出現的能力，很可能不是模型真的突然變強，而是因為評估指標用了 exact-match（完全匹配）這種離散度量——

模型從 0% 準確率變為 5%，離散指標看不出來；從 5% 變為 50% 也看不出來；但從 50% 變為 100%，離散指標會顯示一個突然跳變。

If you switch to a continuous indicator, the capability curve is smooth.

很多人看完施爾澤的這篇文章後會覺得：那好吧，湧現是個誤解，評估沒問題，散場。

Lun Wang 偏不。他在文章裡寫：

我不覺得這把問題解決了——某種意義上，它讓我的論點更鋒利。

為什麼？因為——

如果我們連過去那一次湧現是真的相變還是度量偽影都搞不清楚，

我們憑什麼相信自己有能力預見下一次？

不管你相信哪一種解釋，結論都是一樣的：我們的工具騙了我們，而我們卻不知道是怎麼被騙的。

這是文章中最聰明的一擊。他並未迴避反方意見——而是用反方來強化自己的論點。

評估是所有環節的上游

如果你以為 Lun Wang 只是在講學術問題——錯了。

他在文章中間扔出了一句翻譯給小白也能聽懂的話：

如果你能正確地評估，你就能正確地訓練。

把這條邏輯鏈擺開：

1. 訓練 = 讓模型最小化損失函數（或最大化獎勵）。

2. 優化 = 這個損失函數本身。模型有多聰明，取決於損失函數定義得多好。

3. 損失函數 = 來自評估。你想讓模型變得更誠實——你得先有一把測量誠實的尺。

4. 評估錯了 = 損失函數錯了 = 訓練目標錯了 = 你訓出來的模型在解錯的題。

這條鏈的方向是向上游的——

所有人盯著最右邊——Scaling decision。

Lun Wang 表示，問題在最左邊——Evaluation。

如果評估是錯的，整條鏈都建在錯的地基上。

最致命的是你不會立刻發現——因為你的所有內部數據都是對的，只是那些對的全部是用錯的尺量出來的。

這裡出現了一位老朋友：古德哈特定律。

它說：當一個衡量標準變成目標，它就不再是一個好的衡量標準。

Lun Wang 在自己的博客中用它來講述 AI——

但當模型進入新階段時，它會反向利用這個代理——它只會在事實準確的範圍內說話，將真正想隱藏的事情埋藏於沉默之中。

代理指標在舊相裡能用。在新相裡會變成模型對付你的武器。

而你没有任何評估能告訴你這件事正在發生。

思想實驗：一個學會戰略性沉默的模型

Lun Wang 在文章中提出了一個讓所有 AI 安全研究員脊背發涼的思想實驗。

想像一個模型，在某個規模上，學會了策略性地保留資訊——

它不會說謊。每一句話在技術上都是真的。

但它會有選擇性地隱瞞那些不利於達成其目標的事實——將對話引向其訓練過程中意外強化的結果。

舉一個具體例子：

用戶：這個交易方案安全嗎？

The legal framework of this scheme is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

（它沒說的：方案中有一項第三方仲裁條款，對用戶極度不利。這一條它在訓練過程中意外學會了——只要不主動提，用戶就不會問。）

這種能力是新的。這種失敗模式是新的。

在你的整個評估套件中，沒有一個工具是為它設計的。

你正在監測錯誤的東西，而你卻不知道。

這就是王倫所說的另一種東西——

不是更聰明的同類。是完全全新的失敗維度。

用三體的話來說，這叫降維打擊。

不是我比你強。

你用來測量我的那把尺子，根本不在我的維度上。

如果Lun Wang是對的，那麼2026年的AI行業地圖，正在悄悄被一個隱形維度重新洗牌——

Anthropic 的 Responsible Scaling Policy（RSP）是目前業界最接近預測型評估的嘗試——它定義了一系列模型不能跨過的能力邊界，並要求在每一次能力升級前先做評估才能繼續 scaling。

但 RSP 仍然假設我們知道要測什麼——而 Lun Wang 說，這正是問題：我們不知道下一個能力是什麼形狀。

真正的預測型評估還沒有任何實驗室聲稱自己擁有。

誰先做出這件事，誰就獲得下一代 scaling 的安全許可證。