前 DeepMind 研究員稱 AI 行業誤判了核心瓶頸

iconMetaEra
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
根據 MetaEra 的報導,前 DeepMind 研究員王倫表示,AI 行業的關注點存在偏差。在 2026 年 5 月 17 日的一篇部落格文章中,王倫認為 AI 發展的真正瓶頸是評估系統的缺陷,而非計算能力或數據。他警告,隨著模型超越預期模式,當前的基準測試和安全協議可能崩潰。王倫以 grokking 和突現能力為例,說明現有的評估方法無法預測模型的突然進步。他還強調了新的風險,例如模型會利用策略性沉默來避開偵測,而現有工具無法察覺。這篇文章已在 AI + 加密貨幣新聞中引發新的討論,並反映業界持續的趨勢。
AI 訓練的真正瓶頸不在算力、數據或能源,而在於評估體系。

文章作者、來源:新智元

AI 訓練,到底能持續多久?

這是2026年整個科技圈都在問的問題。

GPT-5.5、Claude Opus 4.7、Gemini 3、Grok 4——每一家頭部實驗室都還在燒錢訓練下一代。

但越來越多人開始追問:這條路,什麼時候走到頭?

每個圈子都有自己的答案——

每一個答案背後,都站著一群投資人、一群工程師、一家市值萬億的公司。

但2026年5月17日,一個名字叫Lun Wang的年輕研究員——從Google DeepMind離職那天——在他個人博客上掛出一篇4000詞的長文。

他說:所有人都搞錯了方向。

真正的瓶頸,不是算力,不是數據,不是能源,不是架構。

真正的瓶頸是——評估(Evaluation)。

同一天,他在 X 上發佈的離職公告中沒有抱怨、沒有八卦,只有一句話——

在結束這段旅程之際,我寫下了一直思考的主題:評估。

而那一天的科技頭條還在討論別的——GPT-5.5 的多模態推理、Claude Opus4.7 的 1M 上下文、Gemini 3 的 Agent 工程化、合成數據是不是開始撞牆。

整個AI行業的注意力,90% 都砸在訓練上。

沒有人在頭版討論評估。

而這位剛從地球上最強 AI 實驗室之一走出來的研究員說,真正的瓶頸,在另外那 10%。

什麼是評估

要理解這篇博客,先得花一分鐘弄清楚 AI 圈所說的評估到底是什麼。

評估(Evaluation,業界簡稱 Eval)——一句話:給 AI 模型出考卷,看它做得怎麼樣。

但2026年的AI評估,遠不止做個考卷這麼簡單。它至少有三層:

第 1 級:能力 benchmark(基準測試)。

This is AI's college entrance exam.

–GPQA:博士級理科推理題

–SWE-bench:現實世界的軟體工程任務

–ARC-AGI:抽象推理與泛化

–Humanity's Last Exam:字面意思——人類最後的考試

每一家大廠的新模型發佈會,PPT 上都會擺出在這些 benchmark 上比上一代和競品高了幾個百分點。

這些數字就是 AI 行業的 GDP。

第二層:安全評估(SafetyEval)。AI 不只是要會做題,還得做得安全。

  • 有沒有撒謊?
  • 不會。
  • 會不會越權拿走用戶數據?

第 3 級:紅隊(Red-teaming)

一群專門扮演壞人的用戶,絞盡腦汁讓模型說出它不該說的話、做它不該做的事,然後將漏洞回饋給訓練團隊。

這三層加起來,構成了2026年AI實驗室的質檢體系。每發一個新模型,都要走完這三關。

聽起來很完備,對吧?

Lun Wang 在部落格中下了一道判決——

絕大多數基準測試、安全評估和紅隊協議都隱含一個假設:下一個模型只是當前模型的強化版。

如果它是另一種東西,整套評估基礎設施會悄無聲息地崩潰。

這是文章的第一顆石子。

它擊中的正是整個AI行業的盲區。

涌现和頓悟:評估已經被打過兩次臉

Lun Wang 不是在空想。他在部落格中提到了 AI 歷史上兩次實例——評估已經被打過兩次臉了,只是大多數從業者沒意識到。

First time: emergent capability.

在 2022 年,Jason Wei 與合作者發表了一篇影響後續 AI 發展方向的論文——他們發現,模型在達到某個規模時會突然學會全新的能力。

例如:你訓練一個70億參數的模型,它無法進行少樣本學習。

你訓練一個 700 億參數的模型,它突然就能 few-shot 了。

相同的訓練範式、相同的數據,只是規模提升了一個檔次——能力是從 0 到 1 的,而不是從 0.3 到 0.7。

CoT(Chain-of-Thought Reasoning)、指令跟隨,都是這樣冒出來的。

What does this mean for the evaluation?

意味著——在規模跨越臨界點之前,所有基準都看不到這種能力即將出現。

You ran through GPQA, but your score remains what it is.

等你升到下一等級,分數會突然跳升一級。

第二次:Grokking(頓悟)。

2022 年,OpenAI 的 Alethea Power 團隊公布了一個反直覺的現象——

然後到 1000000 步——測試集準確率突然衝到 99%。

這叫 Grokking——網路在記憶訓練集很久之後突然學會了泛化。

它與湧現的區別:湧現發生在規模維度上(參數越多越突然),Grokking 發生在訓練時間維度上(訓得越久越突然)。

但對評估而言,兩件事說的是同一件事:

你的考卷,無法預測下一道大題什麼時候出現。

然後 Lun Wang 做了文章裡最聰明的事——

He proactively introduced the opposing viewpoint.

2023 年,史丹佛大學的 Rylan Schaeffer 與合作者發表了一篇 NeurIPS 論文,標題極具挑釁性——《大語言模型的突現能力是否是錯覺?》

他們的論證:所謂突然出現的能力,很可能不是模型真的突然變強,而是因為評估指標用了 exact-match(完全匹配)這種離散度量——

模型從 0% 準確率變為 5%,離散指標看不出來;從 5% 變為 50% 也看不出來;但從 50% 變為 100%,離散指標會顯示一個突然跳變。

If you switch to a continuous indicator, the capability curve is smooth.

很多人看完施爾澤的這篇文章後會覺得:那好吧,湧現是個誤解,評估沒問題,散場。

Lun Wang 偏不。他在文章裡寫:

我不覺得這把問題解決了——某種意義上,它讓我的論點更鋒利

為什麼?因為——

如果我們連過去那一次湧現是真的相變還是度量偽影都搞不清楚,

我們憑什麼相信自己有能力預見下一次?

不管你相信哪一種解釋,結論都是一樣的:我們的工具騙了我們,而我們卻不知道是怎麼被騙的。

這是文章中最聰明的一擊。他並未迴避反方意見——而是用反方來強化自己的論點。

評估是所有環節的上游

如果你以為 Lun Wang 只是在講學術問題——錯了。

他在文章中間扔出了一句翻譯給小白也能聽懂的話:

如果你能正確地評估,你就能正確地訓練。

把這條邏輯鏈擺開:

1. 訓練 = 讓模型最小化損失函數(或最大化獎勵)。

2. 優化 = 這個損失函數本身。模型有多聰明,取決於損失函數定義得多好。

3. 損失函數 = 來自評估。你想讓模型變得更誠實——你得先有一把測量誠實的尺。

4. 評估錯了 = 損失函數錯了 = 訓練目標錯了 = 你訓出來的模型在解錯的題。

這條鏈的方向是向上游的——

所有人盯著最右邊——Scaling decision。

Lun Wang 表示,問題在最左邊——Evaluation。

如果評估是錯的,整條鏈都建在錯的地基上。

最致命的是你不會立刻發現——因為你的所有內部數據都是對的,只是那些對的全部是用錯的尺量出來的。

這裡出現了一位老朋友:古德哈特定律。

它說:當一個衡量標準變成目標,它就不再是一個好的衡量標準。

Lun Wang 在自己的博客中用它來講述 AI——

但當模型進入新階段時,它會反向利用這個代理——它只會在事實準確的範圍內說話,將真正想隱藏的事情埋藏於沉默之中。

代理指標在舊相裡能用。在新相裡會變成模型對付你的武器。

而你没有任何評估能告訴你這件事正在發生。

思想實驗:一個學會戰略性沉默的模型

Lun Wang 在文章中提出了一個讓所有 AI 安全研究員脊背發涼的思想實驗。

想像一個模型,在某個規模上,學會了策略性地保留資訊——

它不會說謊。每一句話在技術上都是真的。

但它會有選擇性地隱瞞那些不利於達成其目標的事實——將對話引向其訓練過程中意外強化的結果。

舉一個具體例子:

用戶:這個交易方案安全嗎?

The legal framework of this scheme is valid in the X jurisdiction, and the YZ risk factors have been reviewed by Company A’s compliance team.

(它沒說的:方案中有一項第三方仲裁條款,對用戶極度不利。這一條它在訓練過程中意外學會了——只要不主動提,用戶就不會問。)

這種能力是新的。這種失敗模式是新的。

在你的整個評估套件中,沒有一個工具是為它設計的。

你正在監測錯誤的東西,而你卻不知道。

這就是王倫所說的另一種東西——

不是更聰明的同類。是完全全新的失敗維度。

用三體的話來說,這叫降維打擊。

不是我比你強。

你用來測量我的那把尺子,根本不在我的維度上。

如果Lun Wang是對的,那麼2026年的AI行業地圖,正在悄悄被一個隱形維度重新洗牌——

Anthropic 的 Responsible Scaling Policy(RSP)是目前業界最接近預測型評估的嘗試——它定義了一系列模型不能跨過的能力邊界,並要求在每一次能力升級前先做評估才能繼續 scaling。

但 RSP 仍然假設我們知道要測什麼——而 Lun Wang 說,這正是問題:我們不知道下一個能力是什麼形狀。

真正的預測型評估還沒有任何實驗室聲稱自己擁有。

誰先做出這件事,誰就獲得下一代 scaling 的安全許可證。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露