Zhipu AI、秒間400トークンAPIをリリース後、株価が26％上昇

文 | AIDeepDive

本日、「世界最大のLLM初上場企業」であるジーパー（02513.HK）が再び急騰した。

取引中、上昇幅は一時30%を超えた。終値は1282香港ドルで、全日の上昇幅は26%を超え、時価総額は5715.7億香港ドルに達し、再び過去最高を更新した。

大規模モデル

この急騰を引き起こしたのは、具体的な技術指標：400 tokens/sです。

5月22日、智谱は企業顧客向けにGLM-5.1-highspeed APIを正式に公開しました。最も重要な核心パラメータは1つだけです：モデルの出力速度が毎秒400トークンに達し、世界の大規模モデルベンダーのAPI速度上限を更新しました。

私は当初、これはまた中国製大規模モデルのためのPR包装だと思っていたが、技術的詳細をよく見ると、資本市場の背後にあるロジックがようやく理解できた。

400トークン/秒とはどのような概念ですか？

モデルは1秒あたり約200文字を生成でき、これはプロの作家が1分間で高強度で書き上げる量を1秒に圧縮したものです。

あるクリエイターが数日間机にかじりついて書き上げる分量を、GLM-5.1 高速版は1分で完了する。あるエンジニアが3日間集中して行うシステム再構築のタスクを、それはコーヒーを一杯飲む時間で実行する。

01 速度は、あなたが思っている以上に重要です

速度は、AIモデルの競争においてこれまで最も見過ごされてきた次元である。

過去3年、大規模モデルの軍備競争は2つの分野に集中していた：パラメータ規模（モデルをより大きく、より賢くする）と価格競争（トークンをより安価で、より広く利用可能にする）。「速さ」はこれまで主役ではなかった。

これは、過去の「高速化」が通常、モデルのパラメータを縮小することで実現されていたためです。速度を上げるには、より小さく簡素化されたモデルを使用する必要があり、その代償として性能が低下します。

GLM-5.1 高速版の意義は、フラグシップ級のフルサイズベースモデルの機能を維持しながら、速度を400 tokens/sまで向上させたことです。

国産モデルの観点からも、国際的な視点からも、「フラグシップ機能」と「極限の低遅延」が初めて妥協なく実現されました。

大規模モデル

なぜ速度が如此に重要なのか？なぜなら、AIの主戦場が根本的に移行しているからである。

AIがChatBotからAgentの時代に入ると、質問応答はAIの主要なシナリオではなくなり、Agentがタスクを完了するには、モデルが数十回、さらには数百回にわたって自己呼び出しを行う必要がある：コードを書く、APIを呼び出す、情報を検索する、ツールを呼び出す……

この作業モードでは、各呼び出し間の遅延が無情に累積・増幅されます。50回の呼び出しを要するタスクで、1回あたり1秒を節約できれば、全体で約1分早く完了します。AIプログラミングアシスタント、音声インタラクション、ビジネス意思決定システムにとって、この差は生死を分けるほど重要です。

より深いレベルでは、固定された時間予算内で高速な推論は、モデルがより深い推論パスやより多くのラウンドの自己検証を実行できることを意味します。速度は、システム指標から知能の上限そのものへと変化しています。

02 速度という課題は、どれほど難しいのか？

現在の業界での速度レベルはどのくらいですか？

トップメーカーでは、OpenAIのGPT-4oは約100–150トークン/秒、AnthropicのClaude Sonnetシリーズは約80–120トークン/秒、国内の主要なフラグシップモデルのAPIは大抵50–100トークン/秒の範囲です。400トークン/秒は業界平均の約3〜5倍に相当します。

より重要なのは、この差は計算能力をさらに投入しても補えないということです。

8枚のH200 GPUを搭載したサーバーは、理論上、毎秒最大38TBのデータを転送できます。GLM-5.1の場合、1つのトークンを生成するには約42GBのアクティベーションパラメーターを読み取る必要があり、純粋な理論計算では、約1000トークン/秒に近づく可能性があります。

しかし、実際のシステムでは通常、数十トークン/秒しか実行できません。

大規模モデル

これは桁違いの差です。GPUは十分に速くないのではなく、多くの時間が待機、空転、無効なスケジューリングに浪費されています。

智谱は今回、推論エンジン、並列戦略、ネットワークアーキテクチャの三つの層で同時に革新を遂げ、最終的な速度の突破を実現しました。

大規模モデル

03 三層の技術が重なり、ハードウェアの物理的限界に迫る

大規模モデルはこのような仕組みで動作します。大規模モデルは個々の独立したオペレーターに分解され、各オペレーターが一度だけ計算コア（カーネル）を起動し、計算が完了すると停止して同期待ち状態になり、次に次のオペレーターを起動します。

トレーニング段階では、計算ごとに数秒から数分かかるため、起動と待機のオーバーヘッドは完全に無視できる。しかし推論時には、1つのトークンを生成するごとに、ある重要なステップが数マイクロ秒しかかからないため、起動と待機のオーバーヘッドは相対的に無視できなくなる。

TileRTの核心思想：モデル全体を継続的に動作するエンジンにコンパイルし、一度起動すれば永続的に動作させる。

TileRTは、コードコンパイル段階でモデルのすべての計算ロジックを静的に連続的なパイプラインに展開し、実行時にGPUを常に高速で動作させ、計算、データ移動、通信を並列に推進します。中間結果は可能な限りGPU内の高速キャッシュに保持され、遅いVRAMへ反復的に書き戻して再読み取りすることはありません。

大規模モデル

重要な設計の詳細があります：Warpの専門化。

Warpを理解するには、GPUの動作を理解する必要があります。GPUとCPUの最大の違いは、内部に数千もの比較的単純な計算ユニットを備えており、これらのユニットが32個ずつグループ化されていることです。このグループをWarpと呼びます。

同じWarp内の32個のユニットは、常に同期して同じ命令を実行しなければならず、軍隊の小隊のように、班長が命令すれば全員が同時に同じ動作を行う。

従来のフレームワークでは、すべてのWarpが同じ命令シーケンスを実行しますが、TileRTでは異なるWarpグループが異なる役割を担います。一部は次バッチのデータを事前に読み込むことに専念し、一部は数学計算に専念し、一部は他のGPUとの通信に専念します。この3つのグループが同時に作業し、流水線のように連携して、互いを待つことなく処理を進めます。

まるで「一人の作業員がレンガを運び、壁を積み、検収を順番にこなす」から、「レンガ運びチーム、壁積みチーム、検収チームが同時に動作する」ようになったようなものです。

単一カード内の効率は解決されたが、複数カードの並列処理に新たな課題が生じた。

業界標準の手法はテンソル並列（Tensor Parallel）です：モデルの重み行列を複数の部分に分割し、各GPUがその一部を担当して計算を行い、その後高速インターコネクト（NVLink）を介して結果を統合します。

このソリューションは、行列乗算のような規則的な密計算に非常に効果があり、現在のほとんどの大規模モデル推論フレームワークで標準的なマルチGPU対応策です。

GLM-5.1は、DeepSeekが提案した**MLA（Multi-head Latent Attention、多頭潜在注意力）**を採用しています。

従来のアテンションメカニズムでは、各ステップで計算された大量の中間データ（KV Cache）をすべて保存しておく必要があり、VRAMを非常に多く消費します。MLAでは、これらの中間データをコンパクトな「潜在ベクトル」に圧縮して保存し、使用時に展開して復元します。これにより、VRAMの必要量が大幅に削減され、推論効率が向上します。

しかし、MLAの計算プロセスには、大量の履歴情報からスパースインデックスを生成する特別なステップがあります：巨大な図書館でまず最も関連性の高い数冊の本を素早く特定し、その後それらの本を丁寧に読むようなものです。

「本を探す」ステップはグローバル情報に依存しており、複数のGPUで分割するには適していません。「精読」が複数のGPUで並列処理に適した密集計算です。8枚すべてのGPUを「本を探す」に強制的に参加させると、GPU間の同期通信に多くの時間が無駄になります。

TileRTの解決策は、GPUの非同質な並列実行です：GPU 0は「図書館検索員」として、疎なインデックスとルーティング決定を担当し、GPU 1～7は「精読分析員」として、密集したアテンション計算と行列演算を担当します。両方の作業者は、それぞれに最適な並列戦略を用いて、計算層全体を協調して完了します。

大規模モデル

次に、TileRTはGPU間の通信操作を実行パイプラインに直接組み込み、独立したステップとして扱いません。外部から見ると、8枚のGPUからなるシステムが1層のアテンション計算を完了するには、1回のカーネル起動だけで済み、内部の通信と計算は継続的なパイプライン内でシームレスに完了します。

上記の2層は、単一マシン内の問題を解決します。クラスタが数百枚、さらには数千枚のGPUに拡張されると、GPU間のデータ転送自体が新たなボトルネックとなります。

業界標準のアプローチはROFT（Rail-Optimized Fat-Tree）であり、これはNVIDIAが推奨する公式ソリューションで、業界での絶対的な標準です。

その構造は木構造です：サーバーはまず下層のLeafスイッチ（アクセス層、サーバーに直接接続）に接続し、Leafはさらに上層のSpineスイッチ（コア層、異なるLeaf間の接続を担当し、高速道路のハブのような役割を果たす）に接続します。2台のGPU間でデータを転送するには、「まずSpineへ上行し、次に目的のLeafへ下行する」必要があり、最低でも3ホップを経由します。

少数のリンクにトラフィックが集中するのを避けるため、このアーキテクチャはECMPアルゴリズムを利用してデータを複数のパス間に分散させ、インターネットトラフィックが「統計的に均等」である前提で良好に動作します。

しかし、推論シナリオのトラフィックは完全に不均一である。異なるリクエスト間のコンテキスト長の差は数十倍に達し、GPU間のKVキャッシュの転送方向はほぼランダムである。特定のリーフスイッチが周期的にボトルネックとなり、バックプレッシャー機構が起動して、局所的な混雑が全体のリンクに拡散する。この混雑はプロトコルのパラメータ調整では解決できず、トポロジー構造自体の産物である。

大規模モデル

ZCubeの根本的な突破：アーキテクチャレベルでこのような混雑が物理的に発生しないようにする。

核心設計は2段階で行われます：

まず、Spine骨干層を削除し、ネットワークをフラット化します。すべてのLeafスイッチを奇数番号と偶数番号で二つのグループに分け、両グループ間を完全に相互接続します。任意の奇数番号スイッチはすべての偶数番号スイッチに接続され、その逆も同様です。これにより、任意の2台のGPU間の通信は最大2台のスイッチを経由するだけで可能になり、ホップ数は3から2に削減されます。

大規模モデル

第二のステップ、そして最も洗練された点：各GPUネットワークカードは、2つの異なる方法で2つのスイッチグループに接続されます。この特殊なトポロジーは、ネットワーク全体の任意の2つのGPUの間に、唯一の最適パスが存在するという重要な数学的性質をもたらします。

大規模モデル

「唯一パス」は混雑の根本原因を直接解消します。従来のアーキテクチャは、複数のパスが選択可能であるため、負荷分散アルゴリズムが誤るとトラフィックが集中しやすくなります。ZCubeは設計段階で「選択」そのものを排除しています：分岐が存在しないため、均衡を取る必要がありません。

04 同じハードウェア環境では、どのように計算しますか？

智谱はGLM-5.1生産クラスタを従来のROFTからZCubeにアップグレードした後、以下の3つの数値を得ました：

まとめると、同じGPU投入で、クラスターはより多くのユーザーにサービスを提供できる。同じユーザー体験要件を満たす場合、クラスターはネットワーク機器を3分の1少なく購入できる。効率とコストの両面で改善。

大規模モデル

具体的には、スループットが15%向上すると、無料で15%の追加計算能力が得られるのと同じです。GPUの数を変えないままスループットが15%増加すると、1トークンあたりのハードウェアコストが約13%低下し、または同じコストで15%多くのユーザーをサービスできます。

1000枚のGPUを備えたクラスターの場合、このアップグレードは150枚分の追加リソースを生み出すことになり、現在のハイエンド推論GPUの市場価格に基づけば、数億元規模の計算能力価値に相当します。

タイルテンシが40.6%低下し、これは平均速度ではなく安定性の改善を意味します。50ラウンドの呼び出しを要するエージェントタスクにおいて、タイルテンシが1回あたり1秒ずつ短縮されると、最悪の完了時間が約1分圧縮されます。

コストが3分の1削減され、これは構築面での直接的な節約です。ZCubeはSpine層を廃止し、同じクラスタ規模において必要なスイッチと光モジュールの数が直接3分の1削減されます。智谱の試算によると、1万枚のGPUを備えたクラスタでは、この措置だけで約2.1億〜6.4億元の節約が可能です。

長期的には、クラスタ規模が指数的に拡大するにつれ、GPU間通信の複雑さが数倍に増加し、混雑の発生確率とその影響も同時に拡大します。これは、ZCubeのようなアーキテクチャレベルの革新の価値が、推論クラスタの継続的な拡大とともに加速して顕著になることを意味します。明日の1万GPU級クラスタの利益は、今日の15％以上になる可能性があります。

05 最後に

智谱の技術レポートを読んだ後、これはDeepSeekが登場したときのように、業界に嵐を巻き起こすのでしょうか？

よく考えてみると、両者の影響は異なる側面にあるようだ。DeepSeekが登場した際、同じレベルの知能をはるかに少ない計算リソースで実現できることを示した。市場は「必要なGPUが減る」と懸念し、その結果、ナビダ社の時価総額はその日だけで約6,000億ドル減少した。

しかし今日、智谱の技術的証明によれば、同じ計算能力でより多くの出力を得ることができます。これは「GPU以外のインフラストラクチャはどのようにあるべきか」を再構築しています。

短期的には、NVIDIAには影響ありませんが、長期的には、GPU + NVLink インターコネクト + InfiniBand ネットワーク + CUDA ソフトウェアエコシステムという強みが「掘り起こされ」つつあります。特に、NVIDIAが2019年に69億ドルでMellanoxを買収して得たInfiniBandは、NVIDIAのネットワーク部門のプレミアムが大幅に削られることになります。

また、ZCubeはSpine層を廃止したため、Leafスイッチのポート密度要求が逆に高まりました。これにより、高密度・大ポートのLeafスイッチを製造できるメーカー（Ruijie、Arista、Broadcomスイッチチップ）が恩恵を受け、主にSpine層の高エンドスイッチでプレミアムを享受していたメーカーが損失を被ります。

2025年、CelesticaとNVIDIAは合計でAIバックエンドネットワークスイッチ市場の約50%を占めているが、ZCubeパラダイムの拡散によりこの構図は再編される。

光モジュールは今回の産業チェーンの変化の中で最も直接的な恩恵を受ける分野であり、ロジックは非常に明確です。中国の光モジュールメーカー（中際旭創、天孚通信など）にとって、これは構造的な好材料です。総量が増加するだけでなく、ZCubeパラダイム下では高速光モジュール（800G、1.6T）に対する需要が従来のアーキテクチャよりもさらに集中し、切実です。

TileRTおよびZCubeのアーキテクチャに関わらず、これは標準的なGPU上で動作する純粋なソフトウェア推論エンジンであり、NVIDIAの独自ハードウェア機能に依存しません。理論的には、華為の昇騰などの国内製チップへも移植可能です。この方向性が実現されれば、国内AIチップの推論シナリオにおけるソフトウェアスタックの障壁が大幅に低下します。

これが、この技術革新の背後にあるより大きな意味なのかもしれません。