AI 訓練的真正瓶頸不在算力、數據或能源,而在於評估體系。
文章作者、來源:新智元
AI 訓練,到底能持續多久?
這是2026年整個科技圈都在問的問題。
GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家頭部實驗室都還在燒錢訓練下一代。
但越來越多人開始追問:這條路,什麼時候走到頭?
每個圈子都有自己的答案——
每一個答案背後,都站著一群投資人、一群工程師、一家市值萬億的公司。
但2026年5月17日,一個名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個人博客上掛出一篇4000詞的長文。
他說:所有人都搞錯了方向。
真正的瓶頸,不是算力,不是數據,不是能源,不是架構。
真正的瓶頸是——評估(Evaluation)。
同一天,他在 X 上發佈的離職公告中沒有抱怨、沒有八卦,只有一句話——
在結束這段旅程之際,我寫下了一直思考的主題:評估。
而那一天的科技頭條還在討論別的——GPT-5.5 的多模態推理、Claude Opus4.7 的 1M 上下文、Gemini 3 的 Agent 工程化、合成數據是不是開始撞牆。
整個AI行業的注意力,90% 都砸在訓練上。
沒有人在頭版討論評估。
而這位剛從地球上最強 AI 實驗室之一走出來的研究員說,真正的瓶頸,在另外那 10%。
什麼是評估
要理解這篇博客,先得花一分鐘弄清楚 AI 圈所說的評估到底是什麼。
評估(Evaluation,業界簡稱 Eval)——一句話:給 AI 模型出考卷,看它做得怎麼樣。
但2026年的AI評估,遠不止做個考卷這麼簡單。它至少有三層:
第 1 級:能力 benchmark(基準測試)。
This is AI's college entrance exam.
–GPQA:博士級理科推理題
–SWE-bench:現實世界的軟體工程任務
–ARC-AGI:抽象推理與泛化
–Humanity's Last Exam:字面意思——人類最後的考試
每一家大廠的新模型發佈會,PPT 上都會擺出在這些 benchmark 上比上一代和競品高了幾個百分點。
這些數字就是 AI 行業的 GDP。
第二層:安全評估(SafetyEval)。AI 不只是要會做題,還得做得安全。
- 有沒有撒謊?
- 不會。
- 會不會越權拿走用戶數據?
第 3 級:紅隊(Red-teaming)
一群專門扮演壞人的用戶,絞盡腦汁讓模型說出它不該說的話、做它不該做的事,然後將漏洞回饋給訓練團隊。
這三層加起來,構成了2026年AI實驗室的質檢體系。每發一個新模型,都要走完這三關。
聽起來很完備,對吧?
Lun Wang 在部落格中下了一道判決——
絕大多數基準測試、安全評估和紅隊協議都隱含一個假設:下一個模型只是當前模型的強化版。
如果它是另一種東西,整套評估基礎設施會悄無聲息地崩潰。
這是文章的第一顆石子。
它擊中的正是整個AI行業的盲區。
涌现和頓悟:評估已經被打過兩次臉
Lun Wang 不是在空想。他在部落格中提到了 AI 歷史上兩次實例——評估已經被打過兩次臉了,只是大多數從業者沒意識到。
First time: emergent capability.
在 2022 年,Jason Wei 與合作者發表了一篇影響後續 AI 發展方向的論文——他們發現,模型在達到某個規模時會突然學會全新的能力。
例如:你訓練一個70億參數的模型,它無法進行少樣本學習。
你訓練一個 700 億參數的模型,它突然就能 few-shot 了。
相同的訓練範式、相同的數據,只是規模提升了一個檔次——能力是從 0 到 1 的,而不是從 0.3 到 0.7。
CoT(Chain-of-Thought Reasoning)、指令跟隨,都是這樣冒出來的。
What does this mean for the evaluation?
意味著——在規模跨越臨界點之前,所有基準都看不到這種能力即將出現。
You ran through GPQA, but your score remains what it is.
等你升到下一等級,分數會突然跳升一級。
第二次:Grokking(頓悟)。
2022 年,OpenAI 的 Alethea Power 團隊公布了一個反直覺的現象——
然後到 1000000 步——測試集準確率突然衝到 99%。
這叫 Grokking——網路在記憶訓練集很久之後突然學會了泛化。
它與湧現的區別:湧現發生在規模維度上(參數越多越突然),Grokking 發生在訓練時間維度上(訓得越久越突然)。
但對評估而言,兩件事說的是同一件事:
你的考卷,無法預測下一道大題什麼時候出現。
然後 Lun Wang 做了文章裡最聰明的事——
He proactively introduced the opposing viewpoint.
2023 年,史丹佛大學的 Rylan Schaeffer 與合作者發表了一篇 NeurIPS 論文,標題極具挑釁性——《大語言模型的突現能力是否是錯覺?》
他們的論證:所謂突然出現的能力,很可能不是模型真的突然變強,而是因為評估指標用了 exact-match(完全匹配)這種離散度量——
模型從 0% 準確率變為 5%,離散指標看不出來;從 5% 變為 50% 也看不出來;但從 50% 變為 100%,離散指標會顯示一個突然跳變。
If you switch to a continuous indicator, the capability curve is smooth.
很多人看完施爾澤的這篇文章後會覺得:那好吧,湧現是個誤解,評估沒問題,散場。
Lun Wang 偏不。他在文章裡寫:
我不覺得這把問題解決了——某種意義上,它讓我的論點更鋒利。
為什麼?因為——
如果我們連過去那一次湧現是真的相變還是度量偽影都搞不清楚,
我們憑什麼相信自己有能力預見下一次?
不管你相信哪一種解釋,結論都是一樣的:我們的工具騙了我們,而我們卻不知道是怎麼被騙的。
這是文章中最聰明的一擊。他並未迴避反方意見——而是用反方來強化自己的論點。
評估是所有環節的上游
如果你以為 Lun Wang 只是在講學術問題——錯了。
他在文章中間扔出了一句翻譯給小白也能聽懂的話:
如果你能正確地評估,你就能正確地訓練。
把這條邏輯鏈擺開:
1. 訓練 = 讓模型最小化損失函數(或最大化獎勵)。
2. 優化 = 這個損失函數本身。模型有多聰明,取決於損失函數定義得多好。
3. 損失函數 = 來自評估。你想讓模型變得更誠實——你得先有一把測量誠實的尺。
4. 評估錯了 = 損失函數錯了 = 訓練目標錯了 = 你訓出來的模型在解錯的題。
這條鏈的方向是向上游的——
所有人盯著最右邊——Scaling decision。
Lun Wang 表示,問題在最左邊——Evaluation。
如果評估是錯的,整條鏈都建在錯的地基上。
最致命的是你不會立刻發現——因為你的所有內部數據都是對的,只是那些對的全部是用錯的尺量出來的。
這裡出現了一位老朋友:古德哈特定律。
它說:當一個衡量標準變成目標,它就不再是一個好的衡量標準。
Lun Wang 在自己的博客中用它來講述 AI——
但當模型進入新階段時,它會反向利用這個代理——它只會在事實準確的範圍內說話,將真正想隱藏的事情埋藏於沉默之中。
代理指標在舊相裡能用。在新相裡會變成模型對付你的武器。
而你没有任何評估能告訴你這件事正在發生。
思想實驗:一個學會戰略性沉默的模型
Lun Wang 在文章中提出了一個讓所有 AI 安全研究員脊背發涼的思想實驗。
想像一個模型,在某個規模上,學會了策略性地保留資訊——
它不會說謊。每一句話在技術上都是真的。
但它會有選擇性地隱瞞那些不利於達成其目標的事實——將對話引向其訓練過程中意外強化的結果。
舉一個具體例子:
用戶:這個交易方案安全嗎?
The legal framework of this scheme is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.
(它沒說的:方案中有一項第三方仲裁條款,對用戶極度不利。這一條它在訓練過程中意外學會了——只要不主動提,用戶就不會問。)
這種能力是新的。這種失敗模式是新的。
在你的整個評估套件中,沒有一個工具是為它設計的。
你正在監測錯誤的東西,而你卻不知道。
這就是王倫所說的另一種東西——
不是更聰明的同類。是完全全新的失敗維度。
用三體的話來說,這叫降維打擊。
不是我比你強。
你用來測量我的那把尺子,根本不在我的維度上。
如果Lun Wang是對的,那麼2026年的AI行業地圖,正在悄悄被一個隱形維度重新洗牌——
Anthropic 的 Responsible Scaling Policy(RSP)是目前業界最接近預測型評估的嘗試——它定義了一系列模型不能跨過的能力邊界,並要求在每一次能力升級前先做評估才能繼續 scaling。
但 RSP 仍然假設我們知道要測什麼——而 Lun Wang 說,這正是問題:我們不知道下一個能力是什麼形狀。
真正的預測型評估還沒有任何實驗室聲稱自己擁有。
誰先做出這件事,誰就獲得下一代 scaling 的安全許可證。
