智谱 AI 的工程優化推動成本效益與市場信心

The first trading day after the May Day holiday, Zhipu and MiniMax both surged dramatically.

5 月 4 日，智譜漲超 10%，股價再次逼近千元關口，MiniMax 大漲 12.62%，報收 803 港元。

根據摩根士丹利的報告，股價暴漲的原因來自於中國AI獨有的「性價比敘事」。

摩根士丹利在報告《China‘s AI Path: More Bang For The Buck》中表示，在算力受到約束的前提下，中美頂尖模型的智能水平正在快速接近，差距已經收窄到 3 到 6 個月。

同時報告指出，中國模型真正突出的地方，是能以美國同行 15% 到 20% 的推理成本，實現接近同等水平的智能。

這句話其實很好理解。大家不一定需要使用最強的模型，但絕大多數人都想使用便宜的模型。

市場買的不是一個簡單的「國產替代」故事，而是中國 AI 正在將性價比轉化為真實調用量、真實收入和真實估值彈性。

但問題也隨之而來，這種性價比到底從哪裡來？

如果只是以低價獲客，那它很快會變成價格戰。

如果僅是模型蒸餾，而目前 Anthropic、OpenAI 等企業均已關閉蒸餾的入口，那麼評級不應該下降嗎？為何還調高了？

事實上，真正讓這個敘事變得更有說服力的，是智譜在五一前發布的技術部落格《Scaling Pain：超大規模 Coding Agent 推理實踐》。

這篇部落格並未談論宏大的 AGI 愿景，而是將 KV Cache、吞吐量、調度、異常輸出等底層工程攤開給市場看。

最重要的是，它揭開了中國 AI 性價比背後的秘密。

01

In this blog, Zhipu roughly explained how to enable the same GPU to handle more tasks and experience fewer errors by optimizing caching, scheduling, and anomaly monitoring.

智譜發現，AI不好用不一定是模型不聰明，也可能是後台運行系統太亂。它修復了緩存串數據的問題，優化了 GPU 調度和緩存複用，並新增了一個能提前發現異常輸出的警報器。

結果就是，同樣的模型、同樣的 GPU，可以服務更多用戶，出錯機率也更低。因此，它的「性價比敘事」並非單純降價，而是透過工程優化，從每張 GPU 中榨取出更多穩定可用的算力。

經過底層工程優化，GLM-5 系列在 Coding Agent 場景下的系統吞吐量最高提升 132%，系統異常輸出率從大約萬分之 10 下降至萬分之 3。

例如，原本一張 GPU 每小時能處理 100 個任務，現在經過優化後，最多可處理 232 個任務。

單獨來看，每一項都不足以決定勝負。但疊加在一起，就是在同等算力下多出一倍的吞吐量，以及一個數量級以上的穩定性提升。

The model hasn't changed. What has changed is how the model is being utilized.

具體而言，自3月起，智譜在GLM-5的線上監控和用戶反饋中觀察到三類異常現象：亂碼、複讀、生僻字。這些現象在表面上與長上下文場景下常見的「降智」相似。

但智譜團隊並未上線任何降低模型精度的優化。該異常究竟是源自模型本身，還是源自推理鏈路？

在反覆分析推理日誌後，他們找到了一個意想不到的切入點：投機採樣指標可以作為異常檢測的參考訊號。

Speculative sampling 原本只是一種效能優化技術。先由草稿模型生成候選 token，再由目標模型驗證並決定是否接受，從而在不改變最終輸出分佈的前提下提升解碼效率。

讓小模型先快速生成一批答案，再由大模型挑選正確的，這樣既快又準。

智譜團隊發現，當異常發生時，投機採樣的兩個指標會呈現穩定模式。於是他們將投機採樣從單純的效能優化，擴展為輸出品質的實時監控信號。

當 spec_accept_length 持續低於 1.4 且生成長度已超過 128 token，或 spec_accept_rate 超過 0.96 時，系統主動中止當前生成，將請求交給負載均衡器重試。

These two numbers are like health check indicators; if they become abnormal, it means the model is “sick” and needs to be restarted for treatment.

用戶雖然感知不到這個過程，但後台確實完成了一次這樣的重啟。

異常的根本原因，是 KV Cache 重用衝突。

這就像廚房，到了用餐高峰期，很多人同時前來點單。

系統需要臨時保存每位用戶的上下文，也就是 KV Cache。這桌客人剛才點了什麼、是要少放辣椒還是不吃香菜。一兩個客人還好，一旦客人多了，服務員就容易記錯。

MiniMax

在高併發時，某些快取的回收、重用和讀取順序出現混亂，導致模型取得錯誤的上下文，可能輸出亂碼、重複內容或生僻字。

在推理引擎中，於 PD 分離架構下，請求生命週期與 KV Cache 回收與重用的時序之間存在不一致。並發壓力一增大，衝突就被放大，表現於用戶端即為亂碼與重複輸出。

因此多個請求同時搶奪一塊內存，導致數據混亂，用戶看到的就是亂碼。

The Zhipu team identified this bug and fixed it.

此外，他們還在主流開源推理框架 SGLang 的原始碼層面發現並修復了 HiCache 模組的載入時序缺失問題，也就是 read-before-ready。

修復方案已透過 Pull Request #22811 提交至 SGLang 社區，並已獲採納。

SGLang 是一個開源項目，其全稱可理解為一種面向大語言模型的推理／服務框架。它不是一個大模型，也不是一家 AI 公司，而是一套讓大模型高效運行的基礎軟體。

智譜在使用 SGLang 這套開源推理框架時，發現了一個高並發快取 bug。

它不僅在內部修復，智譜還將修復代碼提交給了 SGLang 這個開源項目。

經過項目維護者審核後接受並合併。於是，這個修復進入了公共版本，其他使用 SGLang 的開發者和公司之後也可以使用。

這是什麼意思呢？

如果千問的某個部署鏈路使用了 SGLang+HiCache，那麼阿里也會因智譜發現並修復此問題而受益。

還是剛才說的那句話，模型沒有變，但透過工程優化，讓它在使用時更聰明了。

02

智譜這篇博客真正戳破的，是一個更深的層次。

聊天機器人時代的低成本，很大程度上來自訓練成本低，部分訓練集來自對頭部模型的蒸餾。

In the Agent era, this trick won't work.

今年以來，Anthropic 和 OpenAI 已陸續關閉了蒸餾入口，明確禁止使用其模型輸出來訓練競爭模型。靠蒸餾取巧的路，越來越窄。

但中國 AI 公司的性價比敘事並未削弱，市場反而在為這個故事加碼。

原因在於，性價比的定義已經改變了。

在聊天機器人時代，平均上下文為 55K tokens，單次對話，低並發。

在 Agent 時代，平均上下文超過 70K tokens，支援長時間任務（8 小時級），高併發、高前綴複用。

在聊天機器人時代，AI 的性價比衡量標準很簡單：同樣的問題，誰的模型更便宜，誰的回答更接近一線水準。

行業討論的是每百萬 token 多少錢、模型參數多大、榜單成績高不高。

在 Agent 時代，沒人問這個，這套演算法失效了。

用戶購買的不再是一句回答，他購買的是整個任務的完成成果。

一個 Coding Agent 需要閱讀代碼、理解上下文、規劃步驟、調用工具、修改文件、運行測試、失敗後重試。它消耗的 token 不是單次問答的增量，而是整個工作流程的總賬。

OpenRouter 作為全球最大的調用平台，其每周處理的 token 總量從 2026 年 1 月第一週的 6.4 萬億，增長至 2 月 9 日當週的 13 萬億，一個月內翻了一倍。

OpenRouter 官方表示，100K 到 1M 長文本區間的增量調用需求，正是 agent 工作流的典型消耗場景。

用戶使用 AI 的模式，已從「對話型」轉變為「流程型」。因此，AI 的性價比單位，也從「token 單價」變為「任務單價」。

這導致某些模型的 token 處理成本較低，但由於模型性能不佳，在執行任務時經常失敗或結果未達標準，最終其 agent 的實際成本並不便宜。

例如，一個 8 小時級別的 Coding 任務，中途只要亂碼一次，整個工作流可能都要重來。節省下來的 token 單價，補不回浪費的時間。

中國 AI 的性價比敘事正在升級。

以前講的是「輸出相同水準的答案，我更便宜」。現在講的是「同樣複雜的任務，我能用更低的成本跑完」。

開源基礎設施也正在成為中國AI的新護城河。

As mentioned earlier, SGLang is exactly like this. China’s AI engineering capabilities are beginning to radiate upstream to the community.

這件事的價值不僅在於智譜修復了一個 bug，更在於中國的 AI 公司正將真實業務中的高併發、長上下文、agent 調用問題，反向沉澱為公共基礎設施的能力。

正如前文提到，當一個修復進入 SGLang 這樣的開源框架，它就不再只服務於智譜自己的模型。所有使用這套框架部署大模型的團隊，都有機會獲得更穩定的快取、更低的推理成本和更好的 agent 體驗。

模型能力可以被追趕，價格可以被壓低，但基礎設施一旦進入開源生態，就會變成標準、介面和開發習慣。

誰更早把自己的工程經驗寫入這些底層系統，誰就更容易在下一轮 AI 應用爆發中佔據優勢。

03

回到資本市場。

AI 大模型概念股全線走高，資本願意為 AI 公司重新定價嗎？市場買的到底是什麼？

答案是，資本市場正在為「中國 AI 公司能以更低的推理成本實現接近一線智能」的敘事付費。

仍以 OpenRouter 的數據為準。

中國頭部AI公司的token消耗份額，從2025年4月的5%快速攀升至2026年3月的32%。美國頭部模型份額，從58%大幅下滑至19%。

MiniMax、智譜、阿里的 token 使用量，在 2026 年 2-3 月較去年 12 月增長 4-6 倍。

除了 token 調用以外，中國 AI 還在形成一套完全不同於海外巨頭的增長邏輯。

海外頭部模型正在銷售「能力溢價」。

模型能力越強，單次調用越貴，用戶為最強智能付費。Claude、GPT-5、Gemini 都在往這個方向走。

中國 AI 正在銷售「工程」。

模型能力接近一線模型，但價格、延遲和調用門檻更低，更符合絕大多數高頻場景的需求。

摩根士丹利的報告提到，中國模型的輸入價格約為 0.3 美元/百萬 token，部分海外同類產品的價格在 5 美元左右。這中間有十幾倍的差距。

當 AI 從試用工具轉變為生產力工具時，性價比將直接決定調用頻率。

模型越便宜，企業就越敢將更多客服、代碼、行銷、資料分析任務交給它。任務執行越多，token 消耗越大，平台就越能分攤基礎設施成本。

MiniMax

I believe that in this phase, it is possible to create a flywheel.

第一圈，是以更低的 API 價格和更接近一線的能力，吸引開發者和企業。

Round 2, higher call volumes will bring more real-world scenarios, pushing the model and inference system to continue optimizing.

第三圈，也就是智譜這篇技術博客裡講到的，用工程優化降低單位 token 和單位任務成本，讓廠商有能力繼續降價、漲量，或者在高價值場景裡漲價。

第四圈，當 token 消耗成為 AI 時代的新流量，誰能以更低的成本承載更多 token，誰就更接近下一階段的平台型公司。

如果只是模型降價，市場會擔心這是補貼和價格戰，越來越燒錢，總有人的錢包撐不住。

而且，價格戰無法支撐高估值。

但如果降價背後是吞吐量提升、快取重用、異常率下降和排程效率提升，那麼低價就不是以犧牲利潤換取成長，而是工程能力釋放出的成本空間。

價格戰和此類工程優化的結果，雖然都讓模型更便宜，且在財報上看起來可能差不多，但在估值模型中，差異極大。

前者是補貼，市場會折價；後者是工程壁壘，市場會溢價。

最後可以得出一個判斷。

過去，AI 公司的估值依賴模型能力的上限，看誰更接近 AGI。當時市場在為「最強智能」付費，最強智能的定義越來越模糊，單次調用越來越貴。

在當前的 agent 時代，估值仍需關注成本下限。要看誰能將智能穩定、便宜且大規模地交付出來。

對於追求最尖端的「智能」，這可能不是中國AI擅長的事情。

然而，中國 AI 是最有可能將「智能」這兩個字，變成所有人都能負擔得起的基礎設施。

而市場只願意為能說清楚自己邏輯的公司付錢。

本文來自微信公眾號「字母榜」（ID：wujicaijing），作者：苗正