當 AI 吃掉一切後，什麼是無法訓練的？

導語：當 AI 能力持續躍遷，投資圈正在出現一種新的悲觀判斷：如果模型越來越強，所有應用公司終將被 Anthropic、OpenAI、Nvidia 這類模型與算力層吞噬，市場最後只剩下前沿模型、算力和少數基礎設施。但 Sarah Guo 認為，這種判斷只說對了一半。那些「thin wrapper」（薄包裝，即簡單套殼模型的應用）確實會被吸收，凡是能夠被 benchmark（基準測試）衡量、被公開數據訓練、被低成本驗證的任務，也都會逐漸商品化。

真正的問題是：AI 吞噬一切可訓練之物後，什麼仍然不可訓練？

本文的答案，在於那些存在於真實組織內部、無法從外部輕易複製的價值：企業私有數據、複雜工作流程、用戶信任、系統權限、行業判斷、合規責任，以及長期運行中累積的經驗。模型可以更聰明，卻無法自動進入銀行的生產系統；可以生成醫療答案，卻無法直接獲得醫生的信任和醫院的決策流程；可以撰寫法律文本，卻無法替資深律師承擔責任，也不能憑空定義什麼才是合格的法律工作。

因此，未來真正擁有護城河的 AI 公司，不是簡單地比通用模型更聰明，而是深入某個行業內部，完成艱難但關鍵的「翻譯」工作：把客戶的私有現實、工具、流程和判斷標準整理成模型可以行動的系統，並在長期服務中逐漸寫下「什麼才算好結果」的定義。AI 越強，越會讓可衡量、可複製的任務貶值；也越會凸顯那些帶有歷史、關係、權限和專業判斷的「不可訓練之物」。這才是模型吞噬之後，仍然可能保留下來的真正價值。

以下為原文：

2026 年中，投資者版本的「AI 精神錯亂」，是一種認為已經没有任何東西值得投資的絕望感：我們好像應該把所有錢都投給 Anthropic 和 Nvidia，然後回家睡覺。但我從來沒有這種感覺。過去好幾個小版本以來，我一直確信模型已經比我更聰明；如果按市場價格買入 Anthropic 和 Nvidia，我也會很樂意；我身邊最聰明的朋友也都相當確信，模型的自我改進很快就會真正跑通——但我仍然沒有這種絕望感。

這種絕望並不愚蠢。它的邏輯是這樣的：如果模型在所有事情上都持續變強，那麼所有建立在模型之上的公司，都只是等待被模型吸收的薄薄一層外殼；最終能保留下來的價值，只剩算力和前沿模型權重。

以軟體為例，這是這種絕望感最依賴的案例。Devin 在 2024 年發布時，僅能解決標準軟體基準測試中 13% 的任務，因此被市場普遍輕視。一年半之後，最強的 Agent 已經能達到 80% 以上的高分，並開始在高盛和美國陸軍內部處理真實工作。幾乎所有人都得出了同一個錯誤結論：模型吞掉了軟體工程。

但當模型吞下了軟體工程中最容易被衡量的那部分之後，我們也在重新認識許多團隊早就知道的一點：工程本來就一直抗拒衡量，而最容易被衡量的部分，未必就是唯一重要的部分。

麻省理工學院的 Mert Demirer 及其合作者終於將這一點量化：在超過 10 萬名開發者中，最新一代的編碼 Agent 使程式碼編寫量提升了約 180%，但實際交付上線的程式碼量僅提升了約 30%。寫程式變便宜了，但其餘環節仍需人工完成，且這些環節至關重要。當然，整體淨影響依然驚人。

基準測試是一種你可以衡量的東西；而任何可以被衡量的東西，都可以用來訓練。因此，編碼 Agent 最先成熟：編譯器是免費的驗證器，測試套件也是免費的驗證器。當答案幾乎可以零成本地自我檢查時，你就可以圍繞這個檢查信號不斷打磨，直到把它打穿。

但通過測試從來不意味著這個更改對於一個已經運行了十年的代碼庫來說就是正確的。該模組之所以存在，背後可能有三個沒有人寫入文檔的原因；部署流水線可能僅靠一個沒人願意承認是自己寫的 cron job 維持運作。

這種正確性無法從排行榜上讀出來，甚至也無法真正從任何東西裡直接讀出來。你只能讓一個如此複雜的系統在真實世界裡運行足夠久，才能知道它是否真的有效。而更聰明的模型，並不會讓真實世界運行得更快。沒有人會給一個像 Google 這麼大的系統跑完單元測試、看到綠色勾就完全放心。你之所以信任它，是因為它已經承受了多年真實負載。

這種正確性不僅是私有的，而且是一種緩慢形成的護城河，是資本無法直接壓縮時間的護城河。即使是樂觀派也承認，這個時鐘無法跳過。OpenAI 推理模型的先驅 Noam Brown 最近寫道：評估一個 Agent 在一年週期裡的表現，唯一可靠的方法可能就是讓它真的運行一年。

正如 Gabe Pereyra 所說，真正的自動化並不只是模型變得更強。它是產品、模型、工作流程和公司組織一起變化，而這四者之中，有三個都按照組織的速度前進。

讓人動起來，是任何基準測試都無法觸及的部分：說服一位持懷疑態度的合夥人改變她處理事務的方式，並讓一支團隊在重建過程中保持凝聚力。這也是為什麼我們在招聘首席執行官時，重視其處理人際關係的能力，至少不亞於分析能力。模型變得更聰明，並不會改變這一權重。

這裡的回饋是模糊的，時間跨度是以年為單位的，而信任屬於某個具體的人。我認識的每家公司，都已讓每位工程師使用前沿編碼模型，但沒有任何一家公司的工程組織能以接近模型進步的速度變革。採用工具只花了一個季度，而那真是個神奇的 token 增長期！但真正的重建需要數年。

可被看清的工作，正在離開。真正有價值的工作，在結構上就是不可讀的：任何你能放到排行榜上的東西，都可以被拿來訓練；因此，任何可衡量之物，都已經在走向商品化。這個過程需要時間，也永遠不會徹底完成，但方向從不會逆轉。

用我朋友、Rippling 的 Matt MacInnis 的說法，換成金錢語言就是：一個 token 如果只是用來回答一個通用問題，幾乎一文不值，因為任何人的模型都能回答；但一個 token 如果是在你的公司數據之上進行推理，就值錢得多，因為它做的是你真正想要的事，而不只是生成一個看起來合理的答案。

可讀的工作會從兩個方向被吞掉。

從下方來看，任務會達到飽和：一旦某項工作可以被低成本檢查，買家就不再關心是哪一個模型完成了它，而是開始詢問它的價格。於是，這項工作就會落到當週最便宜的開源模型或蒸餾模型手中。只要利潤率能發揮作用，最終它一定會發揮作用。

從上方看，實驗室正在嘗試讓模型吞掉自己的腳手架。檢索、便宜調用與昂貴調用之間的路由、工具使用，甚至推理策略——所有曾經包裹在模型外面的裝置，都正在被拉進模型權重中，直到「外殼」本身變成模型。這就是吸收邊界。

利潤壓力也會從另一個方向發揮作用：一個通用 Agent 必須隨時準備處理任何事務，因此成本高昂；而一個聚焦型應用可以將一個工作流優化到極致，使其僅消耗一小部分 token。此外，與出售這些 token 的實驗室不同，應用公司可以保留中間的差額。

因此，我們可以對任何一項工作提出兩個問題：它的正確性是否是私有的、昂貴的，是否是一種僅存在於某家公司內部數據中的真相？它是否被隔離在一個外人無法進入的系統之中？將這些問題與任務的飽和程度結合起來，就會得到一個 2×2 矩陣。

已飽和、答案公開的工作，是商品化 token 的領域，開源模型將佔據它。前沿但答案公開的工作，例如編碼基準測試，是實驗室將勝出的地方，因為當評估是免費的，擁有它本身就不值錢。

真正的獎品，是最後一個角落，也就是「不可訓練」的角落：前沿工作，但其正確性僅存在於私有環境中。你可以在為 AI 原生先驅提供服務的推理雲上看到這一點：絕大多數 token 都是由定制模型生成的，而不是由通用開源模型生成的。

通往這個最後角落的牆，有高有低。一個開發者的玩具程式碼庫是可遷移、標準化的，因此爬進去並不難。但一家銀行的生產系統既不可遷移，也不標準化。你不會因為在 SWE-Bench Verified 上聰明了 2%，就獲得它的 root 權限。

能力會吞掉很多東西，但更好的模型不會讓私有的真實標準變成公開標準。它不會持有許可證，不會為責任簽字，也不擁有公司的文件；當答案出錯時，它也不能成為被起訴的一方。這裡的瓶頸不是智能，而是權限，也是責任。你可以想像一個遠比任何人都聰明的模型，但它仍然必須被允許進門，而且仍然必須有人為它做的事情簽上自己的名字。

那扇門有一道鎖，還有一道門閂。

那道鎖是環境：只有在一個系統內部獲得信任之後，經過安全審查、完成集成、簽下帶有結果責任的合同，你才能驗證 AI 是否真的做了有用的事。

那道門閂是用戶。如今，大多數美國醫生每天都會打開 OpenEvidence，這不是任何算力都能買到的。一家實驗室明天就可以訓練出一個完美的醫療模型，但它依然無法進入醫生的使用習慣，也無法進入 UCSF 的決策流程。因為信任是慢慢建立起來的，靠關係、靠用戶的默許，而不是靠梯度下降把這些東西抹掉。

這正是應用公司的職責。一款應用之所以能在「不可訓練」的角落裡佔據一席之地，靠的是那些並不光鮮的工作：整理一家公司的私有現實，讓模型能夠基於它行動；將行動工具交給模型；與客戶一起改變其勞動力的實際運作方式。

能夠完成這種「翻譯」的公司很難被複製，而且這種翻譯永遠不會結束。集成與維護會隨著客戶關係持續進行。贏得這場競爭的，是那些將領域專家與工具置於客戶身邊的團隊。

舉個例子，在一家頂級老牌律所中，僅併購業務每年就接近 1,000 宗交易。你不能讓數百名律師助理分別將客戶文件下載到桌面，然後交給一個通用 Agent 去通讀。僅僅出於保密原因，這就不被允許，更不用說還有十幾個其他問題。即使可以這樣做，你所學到的也只會是碎片：一名助理一次修正一點，沒有人能看見一整宗交易是如何流動的。

真正重要的訊號，存在於交易這個層級。一宗交易有自己的形狀：對於併購而言，是 NDA、條款清單、盡職調查、購買協議、附屬文件、交割清單；對於知識產權訴訟而言，是動議、證據開示、現有技術、更多動議。每個業務領域都有自己的結構，律師和工具都不能隨意互換。

而這家律所真正要解決的問題，還在更高一層：如何同時運行每一個業務領域，就像頂級合夥人一邊並行管理數百個事項，一邊引入新案源、培養助理律師。改造這樣一家公司，並不是一個你可以寫出評測任務的單一問題。它需要一位操盤手像打「數據棒球」一樣處理它：中間目標極其模糊，反饋不完整，週期極長，而且環境本身也不會靜止。

不幸的是，不可讀的價值也很難銷售，原因與其難以商品化相同：一家公司無法從外部判斷，AI 是否真能如基準測試所示改造其運營。因此，最強的公司會停止試圖在外部證明自己，而是先進入客戶內部，然後為結果定價。

Sierra 僅在其 Agent 解決客戶問題時才收費；若問題轉交給人類，則不收費。因此，價格本身變成了評估機制。而這之所以成立，是因為 Sierra 擁有「已解決」的定義權。Cognition 的 Devin 在軟體領域做了同樣的事，推出「性能保證」。只有當你被信任地進入系統內部時，才有資格為結果提供這種保證。

即使是在提供 token 服務這一層——也就是所有人都稱之為純商品的那一層——它的表現也並不像商品。最好的 AI 原生公司會將服務集中於一到兩家供應商，例如 Baseten 或 Fireworks。因為每 token 成本會隨時間走向商品化，但實際流量下的可靠性，以及對稀缺算力的穩定獲取，則不會商品化。在哪裡提供推理服務，與使用哪些模型，是兩個不同的選擇。推理中唯一真正像商品的部分，是價格。

一個常見的反駁是：實驗室是你的供應商，為何它不會以低於成本的價格傾銷自家第一方產品，把你拖垮？或直接撤銷你的 API 存取權限，自己佔據這個市場？這才是那種絕望感的真實版本。但這僅在模型層是單人遊戲時才成立。

很明顯，事實並非如此。模型層更像是一場三家半玩家的死亡競賽，旁邊還有一批訓練進度落後大約六個月的國際玩家，以及一個規模是去年五倍的發展聯盟。客戶希望自己的供應商之間存在競爭，而實驗室想要的是市場份額，而非殺死任何具體應用。

你可以在實驗室正面競爭的市場中看到這一點。在消費者聊天場景中，最好的模型從未簡單地贏下全部市場。ChatGPT 在多年的真實競爭中一直保持領先；它現在失去的份額，流向了 Gemini，原因是 Android 和搜尋的分發能力，而非模型更優。Anthropic 目前在預測市場和網際網路氛圍中被認為擁有最好的模型，但它在消費者聊天中幾乎不是主要玩家，而是在企業和編碼場景中建立了自己的業務。

如果一個更好的模型都無法在最核心的應用中奪走競爭對手的用戶，它也不會輕易透過整合吃下一家醫院的病歷系統，或一家銀行的責任體系。今天，公眾選擇產品所依據的，不只是編碼能力。如果前沿模型層依然擁擠，那麼其上方的應用層就會有價值。

如果一項工作無法由外部評分，那麼內部就必須有人來決定什麼才算好答案。而這個決定，正是整個遊戲本身。當足夠多這樣的決定被記錄下來，就會形成基準測試。Harvey 發布了法律領域的基準測試，Sierra 發布了語音 Agent 的基準測試。你之所以有權定義一個領域中「好」的含義，是因為這個領域已在使用你。而這些公司，是透過真實採用過程中的艱難鬥爭贏得這種權利的。

真正決定資金流向的評估，是私有的、逐公司形成的：這家公司，在此類事項上，會接受什麼作為好工作。而這件事遠未完成，因為法律的深度遠遠超過任何公開測試。OpenEvidence 正在沉淀什麼才是安全的臨床答案。

這一切其實都不是真正意義上的「測量」，而是關於什麼是真實、什麼是良好的判斷。這些判斷被寫下來，直到變成其他所有人都必須接受的衡量標準。無論基礎模型實驗室變得多麼聰明，它都無法憑空寫出這些標準，因為這種地位只存在於領域內部。

這種權威往往會落在它原本就存在的地方。資深律師寫下法律基準。定義安全臨床答案的是醫生。「已解決」意味著什麼，則由那個已經擁有客戶關係的公司來決定。

吸收邊界還會繼續上升，因為我們會不斷學會衡量更多工作，而可衡量之物會被吞沒。不可訓練的地面會在站其上的人腳下不斷縮小，因此你不能找到一個可防守的位置就停下來。你必須不斷走向那些還無法被評分的地方，並持續重新承保、重新評估風險。

在一個狹窄的任務上，憑藉你的私有數據和自己的評估體系，你可以訓練出達到前沿水平的模型，並在關鍵場景中擊敗通用模型；這個專用模型將成為護城河的一部分。另一方面，如果你是在通用模型的能力上競爭，那就是一場資本之戰，你會輸給擁有最多算力的人。這也正是那些僅具淺層訪問權限、且任務高度可讀的公司最容易陷入的陷阱。

當一家公司為了生存而決定在一大片通用任務上訓練出超越前沿模型的能力時，勝負通常已由資料中心規模決定。最後的結局往往不是出現一個獨立冠軍，而是被賣給某個算力充足的玩家。

以上都是防守。更難的是進攻：首先決定到底要建什麼。這就是我這一年一直在尋找的東西，而我大概只找到了三次。模型在這件事上幫不上忙。你把它指向哪裡，它就會做什麼；但它無法告訴你什麼值得被指向。你無法為此建立基準測試，因此也無法訓練它。

這也是為什麼既有巨頭不會拿走一切：它們會守住自己已擁有的地盤，而下一個東西將來自於在他人之前發現其用途的人。也許，意圖是一種比算力更為稀缺的輸入。

這種絕望感有一半是對的。薄外殼層確實正在被吸收，而今天許多看起來像公司的東西，確實只是薄外殼。但它對「吸收之後還剩下什麼」的判斷是錯的。機制是清楚的，終點卻不是。

我願意下注的方向是：智能將繼續變得更便宜，而價值將繼續流向那些少數模型無法觸及的領域。不可訓練之物，是承載歷史的價值。

因此，進入其中一個這樣的領域，去做那些並不光鮮的翻譯工作，然後開始寫下那裡「好」的定義。因為總會有人這麼做。今年最常被引用的基準測試分數，其實是一張即將變得一文不值的地圖，也是一份通知：通知某些人，他們即將失去定義什麼才算「好」的權利。

[原文連結]

律動 BlockBeats