智谱 AI 在推出每秒 400 個代幣的 API 後，股價上漲 26%

文 | AIDeepDive

今天，「全球大模型第一股」智譜（02513.HK）再次暴漲。

盤中漲幅一度突破 30%。收盤報 1282 港元，全天漲幅超過 26%，市值達到 5715.7 億港元，再度創下歷史新高。

大模型

觸發這場暴漲的，是一個具體的技術指標：400 tokens/s。

5月22日，智譜正式向企業客戶開放 GLM-5.1 高速版 API（GLM-5.1-highspeed），最關鍵的核心參數僅有一個：模型輸出速度達每秒400個 token，刷新全球大模型廠商 API 的速度上限。

我原本以為這又是一次國產大模型的公關包裝，但仔細看了技術細節，終於理解了資本市場背後的邏輯。

400 tokens/s 是什麼概念？

模型每秒能生成大約 200 個漢字，相當於一個專業作家一分鐘的高強度產出，被壓縮到了一秒鐘之內。

一位創作者連續伏案數天才能寫完的文字量，GLM-5.1 高速版在 1 分鐘內便能交付完畢；一名工程師埋頭 3 天才能完成的系統重構任務，它能在喝一杯咖啡的時間裡跑完。

01 速度，比你想的重要

速度，歷來是 AI 模型競爭中最容易被忽視的維度。

過去三年，大模型軍備競賽集中在兩條賽道：參數規模（模型更大更聰明）和價格戰（Token 更便宜更普惠）。「快」，從來不是主角。

這是因為，過去的「快」通常是透過縮小模型參數來實現的。要提速，就必須使用更小、更精簡的模型，代價是能力縮水。

GLM-5.1 高速版的意義在於，它在保留旗艦級全尺寸基座能力的同時，將速度提升至 400 tokens/s。

無論是從國產模型來看，還是從國際範圍來看，「旗艦能力」與「極致低延遲」首次做到了不妥協。

大模型

為什麼速度如此關鍵？因為 AI 的主戰場正在發生根本性的遷移。

當AI從ChatBot進入Agent時代，問答已經不是AI的主要場景，而Agent要完成一個任務，往往需要模型進行數十輪甚至上百輪的自我調用：寫代碼、調接口、搜資訊、調用工具……

在這種工作模式下，每輪調用之間的延遲會被無情地累加放大。一個需要 50 輪調用的任務，如果每次節省 1 秒，整個任務就快了近 1 分鐘。對於 AI 編程助手、語音交互、商業決策系統來說，這種差距是可以決定生死的。

從更深層面來說，在固定時間預算內，更快的推理意味著模型可以完成更深的推理路徑、更多輪次的自我驗證。速度，正在從系統指標變成智能上限本身。

02 速度這件事，有多難？

那現在行業裡在速度方面大概什麼水平？

在頭部廠商中，OpenAI 的 GPT-4o 約在 100–150 tokens/s，Anthropic 的 Claude Sonnet 系列約在 80–120 tokens/s，國內主流旗艦模型 API 大多在 50–100 tokens/s 區間。400 tokens/s 大約是行業平均水準的 3 到 5 倍。

更重要的是，這個差距並不是投入更多算力就能彌補的。

一台搭載 8 塊 H200 顯卡的伺服器，理論上每秒能搬運高達 38TB 的數據。對於 GLM-5.1，單次生成一個 token 只需讀取約 42GB 的激活參數，純理論上推算，應該能接近 1000 tokens/s。

但現實系統往往只能跑出幾十 tokens/s。

大模型

這是一個數量級的鴻溝。GPU 不是不夠快，而是大量時間都被浪費在了等待、空轉和無效調度上。

ZhiPu this time innovates simultaneously at the three levels of reasoning engine, parallel strategy, and network architecture, achieving a breakthrough in final speed.

大模型

03 三層技術疊加，逼近硬體物理極限

大型模型原來是這樣運作的：大型模型被分解成一連串獨立的運算子，每個運算子單獨啟動一次計算核心（kernel），計算完成後停止，同步等待，再啟動下一個。

在訓練階段，每次計算動輒幾秒乃至幾分鐘，這些啟動和等待的開銷完全可以忽略。但推理時，單次生成一個 token，某個關鍵步驟可能只需要幾十微秒，啟動和等待的開銷就相對變得不可忽視。

TileRT 的核心思路：將整個模型編譯成一個持續運行的引擎，一次啟動，永不停歇。

TileRT 在程式編譯階段將模型的所有計算邏輯靜態展開為一條連續流水線，運行時 GPU 始終保持高速運轉，計算、資料搬運與通訊並行推進，中間結果盡量保留在 GPU 內部高速快取中，不再反覆寫回慢速顯存再重新讀取。

大模型

這裡有一個關鍵的設計細節：Warp 專門化。

要理解 Warp，需先了解 GPU 的工作方式。GPU 與 CPU 最大的不同，在於其內部有數千個相對簡單的計算單元，這些單元以 32 個為一組捆綁在一起，這一組就稱為 Warp。

同一個 Warp 中的 32 個單元必須始終同步行動，執行同一條指令，就像軍隊裡的一個班，班長下令所有人同時做同一個動作。

在傳統架構中，所有 Warp 執行同一套指令序列；TileRT 讓不同的 Warp 組承擔不同職責：一部分專門負責提前搬運下一批數據，一部分專門負責數學計算，一部分專門負責與其他 GPU 通信。三組人同時工作、流水配合，互不等待。

就像從「一個工人依次搬磚、砌牆、驗收」，變成「搬磚組、砌牆組、驗收組同時運轉」。

單卡內部的效率已解決，多卡並行又面臨新挑戰。

行業通行做法是張量並行（Tensor Parallel）：把模型的權重矩陣切分成若干份，每塊 GPU 負責其中一份，各自計算完畢後通過高速互聯（NVLink）彙總結果。

This scheme works very well for regular dense computations such as matrix multiplication and is the standard multi-GPU solution for almost all large model inference frameworks today.

GLM-5.1 採用 **MLA（Multi-head Latent Attention，多頭潛在注意力），這是由 DeepSeek 提出的一種注意力機制。

傳統注意力機制需要完整保存每一步計算的大量中間數據（KV Cache）以備後用，極度耗費顯存；MLA 的做法是先將這些中間數據壓縮成一個緊湊的「潛在向量」存儲，使用時再展開還原，顯存需求大幅降低，推理效率更高。

但在 MLA 的計算流程中有一個特殊環節：需要從大量歷史資訊中進行稀疏索引：類似於在一個巨大的圖書館裡先快速找出最相關的幾本書，再精讀這幾本書。

“找書”這個步驟依賴全局資訊，不適合多卡平攤；“精讀”才是適合多卡並行的密集計算。如果強行讓所有 8 塊 GPU 都參與“找書”，大量時間會浪費在 GPU 之間的同步通信上。

TileRT 的解決方案是讓 GPU 異構運行：GPU 0 專門擔任「圖書館檢索員」，負責稀疏索引和路由決策；GPU 1–7 擔任「精讀分析員」，負責密集的注意力計算和矩陣運算。這兩類工作者各自採用最適合自己的並行策略，協同完成整個計算層。

大模型

接下來，TileRT 將 GPU 之間的通信操作也直接內嵌進執行流水線，不再作為獨立步驟。對外來看，整個 8 卡系統完成一層注意力計算只需要一次核心啟動，內部的通信和計算全在持續流水線內部無縫完成。

以上兩層解決的是單機範圍內的問題。當叢集擴展到數百乃至數千張 GPU，GPU 之間的資料傳輸本身就成了新的天花板。

行業通行做法是 ROFT（Rail-Optimized Fat-Tree），這是 NVIDIA 官方推薦方案，業界絕對標配。

它的結構是一棵樹：伺服器先連接底層的 Leaf 交換機（接入層，直接面向伺服器），Leaf 再向上連接 Spine 交換機（骨幹層，負責不同 Leaf 之間的互聯，如同高速公路樞紐）。數據在兩台 GPU 之間傳輸，必須「先上行到 Spine，再下行到目標 Leaf」，至少經過 3 跳。

為避免流量過度集中在少數鏈路上，此架構依賴 ECMP 算法將數據分配至多條路徑，在互聯網流量「統計均勻」的前提下行運良好。

但推理場景的流量完全不均勻。不同請求的上下文長度差異可達數十倍，GPU 之間 KV Cache 的傳輸方向幾乎隨機，某幾台 Leaf 交換機會週期性地成為熱點，觸發反壓機制，把擁塞從局部擴散到全鏈路。這種擁塞不是協議調參能解決的，是拓撲結構本身的產物。

大模型

ZCube 的根本突破：從架構層面讓這類擁塞在物理上無法發生。

核心設計分兩步：

第一步，取消 Spine 骨幹層，全網扁平化。把所有 Leaf 交換機按奇偶編號分成兩組，兩組之間完全互聯，任意一台奇數交換機連接所有偶數交換機，反之亦然。任意兩台 GPU 之間最多經過兩台交換機即可互達，跳數從 3 跳降到 2 跳。

大模型

第二步，也是最精妙的地方：每張 GPU 網卡以兩種截然不同的方式分別接入兩組交換機。這種特殊拓撲帶來一個關鍵的數學性質：全網任意兩張 GPU 之間，有且僅有一條最優路徑。

大模型

「唯一路徑」直接消除了擁塞的根源。傳統架構容易出現熱點，恰恰是因為有多條路徑可選，負載均衡演算法選錯了就會導致流量集中。ZCube 在設計上消除了「選擇」這件事本身：不需要均衡，因為根本沒有岔路。

04 在相同的硬體條件下，帳怎麼算？

智譜將 GLM-5.1 生產叢集從傳統 ROFT 升級到 ZCube 後，得到三個數字：

總的來說，同樣的 GPU 投入，叢集可以服務更多用戶；同樣的用戶體驗要求，叢集可以少買三分之一的網路設備。效率與成本雙向改善。

大模型

具體來說，吞吐量提升15%，等於免費多出15%的算力。在GPU數量不變的情況下，吞吐量增加15%，等價於每個 token 的均攤硬體成本下降約13%，或說相同成本可多服務15%的用戶。

如果一個集群有 1000 張 GPU，這次升級相當於憑空多出了 150 張卡的產能，按當前高端推理卡市價，這是數億元量級的算力價值。

尾延遲下降 40.6%，解決的是穩定性而非平均速度。一個需要 50 輪調用的 Agent 任務，如果尾延遲每次減少 1 秒，整個任務的最壞完成時間就壓縮了将近 1 分鐘。

成本減少三分之一，是建設層面的直接節省。ZCube 取消了 Spine 層，相同叢集規模下所需交換機和光模組數量直接減少三分之一。據智譜測算，在萬卡規模叢集中，僅此一項可節省約 2.1 億至 6.4 億元。

從長遠來看，隨著集群規模指數級增長，GPU 間通信的複雜度將增加數倍，擁塞的概率和影響也同步放大。這意味著 ZCube 這類架構級創新價值，將隨著推理集群的持續擴張而加速顯現。明天萬卡級別集群的收益可能不止今天的 15%。

05 寫在最後

看完智譜的技術報告，我在想，這是否會像 DeepSeek 橫空出世一樣，給行業帶來一場風暴？

仔細想想，兩者的影響好像在不同的方面。DeepSeek 出來的時候，它證明的是，同樣的智能，可以用少得多的算力實現。市場擔心"需要的 GPU 變少了"，所以英偉達當天市值蒸發近 6000 億美元。

但今天智譜的技術證明：同樣的算力，可以產出更多。它是在重構「GPU 之外，其他基礎設施應該長什麼樣」。

從短期來看，英偉達不會受到影響，但從長期來看，GPU + NVLink 互聯 + InfiniBand 網絡 + CUDA 軟體生態的護城河正在被「鬆土」，特別是英偉達於 2019 年以 69 億美元收購 Mellanox 所獲得的 InfiniBand，英偉達網路端的溢價將被大幅侵蝕。

此外，ZCube 取消了 Spine 層，但它對 Leaf 交換機的埠密度要求反而更高。受益的是能做高密度、大埠口 Leaf 交換機的廠商（銳捷、Arista、博通交換晶片），受損的是主要依賴 Spine 層高端交換機吃溢價的廠商。

2025 年，Celestica 與英偉達合計佔據約 50% 的 AI 後端網路交換機市場份額，這個格局在 ZCube 范式擴散後會面臨重新洗牌。

光模組是本次產業鏈變革中最直接的受益方向，邏輯非常清晰。對國內光模組廠商（中際旭創、天孚通信等）來說，這是一個結構性利好：不僅總量在增長，而且在 ZCube 范式下，對高速光模組（800G、1.6T）的需求比傳統架構更為集中和迫切。

無論是 TileRT 還是 ZCube 架構，這是一套運行在標準 GPU 之上的純軟體推理引擎，不依賴英偉達私有的硬體特性，理論上可以移植到華為昇騰等國產晶片上。這個方向一旦走通，會大幅降低國產 AI 晶片在推理場景的軟體棧門檻。

這或許才是這項技術創新背後更大的意義所在。