AI 投資者對 2026 年的焦慮：當模型主導時，初創公司的護城河還剩下什麼？

作者：Sarah Guo

編譯：深潮 TechFlow

深潮導讀：當大模型在所有榜單上都開始碾壓人類，投資人開始陷入一種絕望：除了 Anthropic 和英偉達，還有什麼值得投？這位硅谷頂級投資人用數據和案例說明，真正的護城河不在榜單上——它藏在那些無法被 benchmark 衡量的地方。

2026 年中，投資者版本的 AI 精神錯亂是一種絕望：沒什麼值得投資了，我們應該把所有錢投給 Anthropic 和英偉達然後回家。

我從未有過這種感覺。我已經確信模型比我聰明好幾個版本，我樂意以市場價買入 Anthropic 和英偉達，我所有最聰明的朋友都相當確信自我改進很快就會成功——但我仍然感受不到這種絕望。

這種絕望並不愚蠢。邏輯是這樣的：如果模型在所有事情上都持續變好，那麼每家建立在它之上的公司都只是一層薄薄的包裝，等待被吸收，唯一能存活的價值就是算力和前沿權重。

以軟體為例，這是絕望論者最倚重的案例。Devin 在 2024 年發布時僅能解決標準軟體 benchmark 上 13% 的任務，基本被忽略。一年半後，最優秀的 agent 已能達到 80 多分，它們正在高盛和美國陸軍內部執行真實工作。幾乎所有人都得出了同樣的錯誤結論：模型吞噬了軟體工程。但當模型吞噬了軟體工程中最易衡量的部分時，我們正重新認識到許多團隊早已知道的事——工程一直抗拒衡量，最容易衡量的部分可能並非唯一重要的部分。

麻省理工學院的 Mert Demirer 及其合作者終於提供了數字：在超過 10 萬名開發者中，最新的編碼 agent 使編寫的代碼量提升了約 180%，而實際發布的代碼量提升了約 30%。寫代碼變便宜了。剩餘的部分仍需由人工完成，且至關重要。當然，淨影響依然令人驚嘆。

基準是你能衡量的東西，而你能衡量的東西就是你能針對它訓練的東西。因此，編碼 agent 最先成熟：編譯器是免費的驗證器，測試套件是免費的驗證器，當答案能自行免費檢查時，你可以不斷針對檢查進行打磨，直到你擊敗它。但通過測試從來無法告訴你，這個變更對於一個擁有三個未記錄模組、部署管道僅靠一個沒人願意承認是自己寫的 cron job 維持的十年老代碼庫來說，是否正確。

這種正確性無法從排行榜上讀出來，實際上也無法從任何東西上讀出來。你只有通過在現實世界中運行足夠長的時間，才能發現這樣一個複雜系統是否有效，而更聰明的模型並不能讓世界運行得更快。沒有人會對 Google 規模的東西做單元測試，然後相信綠色的勾；你相信它，是因為它經受住了多年真實的負載。這種正確性不僅是私有的，它還是那種資本無法崩塌的緩慢護城河。即使是樂觀主義者也承認時鐘無法跳過：OpenAI 推理模型的先驅 Noam Brown 最近寫道，評估一個 agent 在一年時間跨度上的唯一可靠方法可能就是……運行它一年。

正如 Gabe Pereyra 所說，真正的自動化不只是模型變好。它是產品、模型、工作流程和公司一起移動，而這四個中有三個以組織的速度移動。

移動的人是 benchmark 覆蓋不到的部分：讓一位懷疑的合夥人改變她處理事務的方式，在重建過程中保持團隊團結。這就是為什麼我們在招聘 CEO 時，處理人的能力至少和分析能力一樣重要，而更聰明的模型不會改變這個權重。回饋是模糊的，時間跨度為數年，信任屬於一個人。我所知道的每家公司都讓所有工程師使用前沿編碼模型，但沒有任何一家以接近該速度改變其工程組織。採用花了一個季度，那是多麼神奇的 token 增長季度啊！但重建正耗費數年。

可見的是正在離開的東西。有價值的工作在結構上是不可見的：任何你能放在排行榜上的東西，你都能針對它訓練，因此任何可衡量的東西都已經在走向商品化的路上。這個過程需要時間且永遠不會完全，但方向永遠不會逆轉。用我在 Rippling 的朋友 Matt MacInnis 的金錢術語來說：花在回答通用問題上的 token 幾乎一文不值，因為任何人的模型都能回答它，而花在對你公司數據進行推理的 token 價值要高得多，因為它做了你真正想要的事，而不僅僅是看似合理的事。

可見的工作從兩個方向被吞噬。從下方，任務飽和：一旦某項工作可以被低成本檢查，買家就不再詢問是哪個模型完成的，而是開始詢問它花了多少錢，工作便落入當週最便宜的開源或蒸餾模型手中。在它們能產生影響的任何地方，利潤率最終至關重要。從上方，實驗室正試圖讓模型吞噬自己的腳手架：檢索、在便宜與昂貴調用之間的路由、工具使用，甚至推理策略——所有曾經包裹模型的裝置，都被拉入權重中，直到包裝器就是模型本身。這就是吸收前沿。利潤率壓力也反向削減：通用 agent 必須為任何事情做好準備，這非常昂貴，而專注的應用可以調整工作流程，直到其僅耗用一小部分 token 支出；與出售這些 token 的實驗室不同，它保留了價差。

因此，我們可以對任何類型的工作提出兩個問題：它的正確性是私有的且建立成本高昂嗎？那種僅存在於某人數據內部的真相？它是被隔離的嗎？鎖在你無法進入的系統內？將這些與任務的飽和程度對比，你會得到一個 2x2 矩陣。具有公開答案的飽和工作是商品 token，開源模型擁有它。具有公開答案的前沿工作，即編碼 benchmark 所在之處，是實驗室勝出的地方，因為當評估是免費的，擁有它並不算什麼。獎品位於最後一個角落——那個不可訓練的：正確性僅存在於私有領域的前沿工作。你可以在託管 AI 原生先驅的推理雲中看到它，絕大多數 token 是由定制模型生成的，而非通用的開源模型。

進入最後那個角落的牆高度各異。單個開發者的玩具程式碼庫是可移植且標準化的，因此攀登很短。銀行的生產系統兩者都不是，你不會因為在 SWE-Bench Verified 上聰明 2% 就獲得 root 權限。

能力吞噬了許多東西，但更好的模型不會將私有的基本事實變為公開。它不持有許可證，不簽署責任，也不擁有公司的文件，當答案錯誤時，它不能成為被起訴的一方。智能並非這裡的瓶頸，許可才是，責任也是。你可以想像一個比任何人都聰明得多的模型，它仍然必須被允許進門，仍然必須有人為它的行為署名。

那扇門有一把鎖和一個門閂。鎖是環境：你只有在系統內部被信任之後，經過安全審查、整合、以及你簽署結果的合約，才能驗證 AI 是否做了有價值的事情。門閂是用戶。如今，大多數美國醫生每天都會打開 OpenEvidence，任何數量的算力都無法買到這種使用習慣。實驗室明天可以訓練出一個完美的醫療模型，但仍無法進入醫生的日常習慣，或進入加州大學舊金山分校的決策流程，因為信任是緩慢建立的，基於關係，需要用戶的默許，而不是抹去他們的梯度下降。

這也是一份工作。一個應用程式透過在難以訓練的角落從事不起眼的工作來贏得其地位：安排公司的私有現實，以便模型能夠對其採取行動，為模型提供行動的工具，並與客戶合作改變其員工的現實。一家帶來翻譯的公司很難被複製——而翻譯永遠不會結束。整合與維護的時間與關係一樣長久，由將領域專業工程師和工具置於客戶身邊的團隊贏得。

舉個例子，在一家頂級白鞋律所，僅 M&A 業務每年就運行近千筆交易。出於保密原因和其他許多原因，你不能讓數百名助理各自下載客戶文件到桌面，並要求通用 agent 翻閱它們；即使你能做到，你所學到的也將是碎片化的，一次只從一名助理的修正中獲取，無法看到整個交易如何流動。重要的信號存在於交易層面，而交易有其形狀：對於 M&A，是保密協議、條款清單、盡職調查、購買協議、附屬文件、交割清單；對於 IP 訴訟，是動議、證據開示、現有技術、更多動議。每個業務領域都有其獨特的結構，律師和工具無法跨領域互換。而律所實際解決的問題，位於這一切之上的一個層次：並行運行每個業務領域，就像頂級合夥人同時運行數百個案件，同時引入新案件並培訓助理。轉型這樣一家律所，不是一個可以為其編寫評估的單一任務。它需要一位運營者以數據分析的方法來處理，目標極其模糊、回饋不完整、時間跨度長，且在一個不會靜止的環境中。

不幸的是，不可見的價值也很難銷售，原因與其難以商品化相同：公司無法從外部判斷 AI 是否會轉型其運營，就像基準測試無法判斷一樣。因此，最強大的企業停止試圖從外部證明它，而是轉向內部，為結果定價。Sierra 在其 agent 解決客戶問題時收費，將問題轉交給人類時則不收費，因此價格成為評估標準，這只有在 Sierra 擁有「已解決」的定義時才有效。Cognition 的 Devin 在軟體中採取同樣的舉措，提供「性能保證」，這只有在你被信任進入的系統中才能為結果提供保障。

即使是服務 token，每個人都稱之為純商品的層，也不像商品那樣運作。最好的 AI 原生公司會將其服務集中於一兩個供應商（Baseten 或 Fireworks），因為每 token 成本按計劃商品化，但真實流量下的可靠性與對稀缺算力的保證訪問則不會。你在哪裡提供服務，與你使用哪些模型是不同的選擇。價格是推理中唯一像商品一樣運作的部分。

一個常見的反對意見是，實驗室是你的供應商——為什麼它不會以低於成本的價格運行自己的第一方產品來榨乾你，或撤銷你的 API 訪問並自行佔據市場？這是絕望論的真實版本，但這只在模型層是單人遊戲時才成立。顯然並非如此——它看起來更像一場三方半的死亡競賽，一群國際玩家落後六個月的訓練，發展規模是去年的 5 倍。客戶希望供應商之間存在競爭，而實驗室更想要市場份額，而非讓任何一個應用程式死亡。

你可以在實驗室正面交鋒的市場中看到這一點。在消費者聊天中，最好的模型從未簡單地獲勝。ChatGPT 在多年真實競爭中保持領先，它現在失去的份額正流向 Gemini，靠的是 Android 和搜尋的力量，而不是更好的模型。Anthropic，預測市場（和互聯網氛圍）目前評級為擁有最好模型的公司，在消費者聊天中幾乎不是一個因素，而是在企業和編碼中建立了自己的業務。如果更好的模型無法在最核心的應用中奪走競爭對手的用戶，它就不會通過集成方式穿過醫院的記錄或銀行的責任。公眾今天的選擇不僅僅基於編碼。如果前沿保持擁擠，其上層將是有價值的。

如果工作無法從外部評分，則必須由內部人員決定什麼是好答案，而這個決定就是整個遊戲。足夠多的這些決定被寫下來後，就成為一個 benchmark。Harvey 為法律領域發布了一個，Sierra 為語音 agent 發布了一個。你透過成為該領域已廣泛使用的標準，贏得了定義什麼對該領域而言是「好」的權利，這些公司則透過真實採用的競爭贏得了這項權利。

對真實資金的評估是私密且因公司而異的：這家公司在此類事務上會接受什麼作為良好表現，這遠未完成，因為法律的深度使任何公開測試相形見絀。OpenEvidence 正在確定安全的臨床答案是什麼樣子。這些都不是真正的衡量標準，這是關於什麼是真實、什麼是良好的判斷，寫下來直到它成為其他人被衡量的標準，而基礎實驗室無論多聰明都無法編寫它，因為那種權威只存在於該領域內部。這種權威傾向於落在它已經坐鎮的地方。資深律師編寫法律基準。定義安全的臨床答案落在醫生身上。而已解決意味著任何已擁有客戶的公司說它意味著什麼。

前沿不斷上升，因為我們不斷學習衡量更多的工作，可衡量的被吞噬。不可訓練的基礎在任何站在其上的人腳下縮小，因此你無法找到一個可防禦的點然後休息。你不斷向任何還不能被評分的事物前進，不斷重新覆蓋。在一個狹窄的任務上，利用你的私有數據和自己的評估，你可以訓練至前沿，並在關鍵處擊敗通用模型，該專業模型成為護城河的一部分。另一方面，在通用模型上競爭是一場資本戰爭，你會輸給擁有最多算力的人，這是擁有淺層訪問和可見任務公司的陷阱。它承諾有朝一日能在通用任務範圍內超越前沿訓練以求生存，但勝利者似乎最由資料中心規模決定，結局通常不是獨立冠軍，而是賣給算力豐富的人。

這些都是防禦。更困難的是進攻，選擇先構建什麼。這就是我花了一年時間尋找的，我可能找到了三次。模型在這裡沒有幫助。它會做你指點的任何事情，但無法告訴你什麼值得指點，你無法對此進行基準測試，因此無法訓練它。這也是現有企業不會奪走一切的原因：他們守著自己擁有的領域，下一個東西來自於在我們其他人之前發現用途的人。也許意圖是比算力更稀缺的投入。

悲觀論對了一半。薄包裝層確實正在被吸收，今天看來，公司的許多東西都只是薄包裝。但它對剩餘的是什麼是錯的。機制是清楚的；目的地卻不是。我會押注的是方向：智慧不斷變便宜，價值不斷滑向模型無法觸及的少數地方。不可訓練的是具有歷史價值的東西。因此，進入其中，做一項不起眼的翻譯，開始寫下那裡什麼意味著好，因為總會有人去做的。今年被引用最多的 benchmark 分數，是一張即將變得一文不值的領土地圖，以及一份關於誰即將失去定義什麼是好的權利的通知。