Zhipu AIのエンジニアリング最適化がコスト効率と市場の信頼を向上

ゴールデンウィーク明けの初取引日、智譜とMiniMaxが急騰した。

5月4日、智谱の株価は10％以上上昇し、再び1,000元の水準に迫った。MiniMaxは12.62％上昇し、終値は803香港ドルとなった。

モルガン・スタンレーのレポートによると、株価の急騰の理由は、中国AI独自の「コストパフォーマンス・ナラティブ」にある。

モルガン・スタンレーはレポート『China’s AI Path: More Bang For The Buck』で、計算リソースが制約される中で、米中トップモデルの知能レベルが急速に近づいており、差は3〜6ヶ月に縮小したと述べている。

同時に、報告は、中国のモデルが、米国の同行の15％～20％の推論コストで、ほぼ同等の知能を実現できることを強調している。

これは実はとても理解しやすいです。皆が最も強力なモデルを使う必要はありませんが、ほとんどの人が安価なモデルを使いたいと思っています。

市場が買っているのは単なる「国産代替」という物語ではなく、中国のAIがコストパフォーマンスを実際の利用量、実際の収益、実際の評価倍率の弾力性に変換しているということである。

しかし、そのようなコストパフォーマンスはどこから来ているのでしょうか？

単に低価格で顧客を獲得しようとしても、すぐに価格競争になってしまうでしょう。

モデル蒸留のみの場合、AnthropicやOpenAIなどの企業はすでに蒸留の入口を閉じているため、評価は下がるべきではないでしょうか。なぜ上げられたのですか？

実際、このナラティブをより説得力あるものにしたのは、智谱がメーデー前に公開した技術ブログ『Scaling Pain：超大規模Coding Agent推論実践』である。

このブログは壮大なAGIのビジョンを語るのではなく、KVキャッシュ、スループット、スケジューリング、異常出力といった下層エンジニアリングを市場に開示しています。

最も重要なのは、中国のAIのコストパフォーマンスの背後にある秘密を「暴いた」ことです。

01

このブログでは、智谱がキャッシュ、スケジューリング、異常監視の最適化を通じて、同じGPUでより多くの作業をこなし、エラーを減らす方法について説明しています。

智谱は、AIが使いにくいのはモデルが賢くないからではなく、バックエンドの実行システムが混乱している可能性もあることを発見しました。同社はキャッシュデータの混線問題を修正し、GPUスケジューリングとキャッシュの再利用を最適化し、異常な出力を事前に検出するアラーム機能を追加しました。

その結果、同じモデル、同じGPUでより多くのユーザーをサービスでき、エラーの発生確率も低くなります。そのため、その「コストパフォーマンスの物語」は単なる価格引き下げではなく、エンジニアリングの最適化によって各GPUからより多くの安定した利用可能な計算能力を引き出していることです。

底层エンジニアリングの最適化により、GLM-5シリーズのCoding Agentシナリオにおけるシステムスループットが最大132%向上し、システム異常出力率は約1万分の10から1万分の3に低下しました。

たとえば、以前は1枚のGPUが1時間に100のタスクを処理していましたが、最適化後は最大で232のタスクを処理できるようになりました。

一つ一つを見れば、勝敗を左右するには十分ではない。しかし、それらが重なり合うことで、同等の算力に対して吞吐量が倍増し、安定性が一つ以上レベルアップする。

モデルは変わっていない。変わったのは、モデルがどのように「使用される」かということだ。

具体的には、3月以降、智谱はGLM-5のオンライン監視とユーザーのフィードバックにおいて、以下の3つの異常現象を観察しました：乱码、繰り返し、珍しい漢字。これらの現象は、表面上では長コンテキストシナリオでよく見られる「知能低下」と似ています。

しかし、智谱チームはモデルの精度を低下させる最適化を一切実装していません。では、この異常はモデル自体に由来するのか、それとも推論パイプラインに由来するのか？

反復的な分析と推論ログの検討の末、彼らは予期しない突破口を見つけた：投機的サンプリング指標を異常検出の参照シグナルとして使用できるという点である。

サンプリングの推論はもともとパフォーマンス最適化技術であった。まず草案モデルが候補トークンを生成し、次にターゲットモデルがそれらを検証して受け入れるかどうかを決定することで、最終的な出力分布を変更せずにデコード効率を向上させる。

小さなモデルがまず高速に一連の回答を生成し、大きなモデルがその中から正しいものを選ぶことで、速くかつ正確にできます。

智谱チームは、異常が発生した際に、投機的サンプリングの2つの指標が安定したパターンを示すことを発見しました。これにより、投機的サンプリングは単なるパフォーマンス最適化から、出力品質のリアルタイム監視シグナルへと拡張されました。

spec_accept_lengthが1.4以下が継続し、生成長が128トークンを超えた場合、またはspec_accept_rateが0.96を超えた場合、システムは現在の生成を自動的に中止し、リクエストをロードバランサーに渡して再試行します。

これらの数値は健診指標のようなもので、異常が生じた場合、モデルが「病気」であることを示し、再起動して治療が必要です。

ユーザーはこのプロセスを認識できませんが、バックエンドでは実際にこのような再起動が完了しています。

異常の根本原因は、KVキャッシュの再利用衝突です。

これはキッチンに似ており、食事の時間帯のピーク時に、多くの人が同時に注文するようなものです。

システムは各ユーザーのコンテキストを一時的に保存する必要があります、つまりKVキャッシュです。このテーブルの客は先ほど何を注文したか、唐辛子を少なくしてほしいのか、香菜を抜いてほしいのか。客が一二人ならまだしも、客が増えればウェイターは間違えやすくなります。

MiniMax

高負荷時に、一部のキャッシュが回収・再利用・読み取りされる順序が乱れ、モデルが誤ったコンテキストを取得すると、乱码、繰り返し、珍しい文字が出力される可能性があります。

推論エンジンにおいて、PD分離アーキテクチャ下では、リクエストのライフサイクルとKVキャッシュの回収・再利用のタイミングに不整合が生じています。並列負荷が高まると、この衝突が拡大し、ユーザー側では乱碼や繰り返しが発生します。

複数のリクエストが同時に同じメモリを奪い合った結果、データが乱れ、ユーザーには乱码が表示されました。

智谱チームはこのバグを特定し、修正しました。

また、彼らは主要なオープンソース推論フレームワークSGLangのソースコードレベルで、HiCacheモジュールのロードタイミングの欠落、すなわちread-before-readyの問題を発見して修正しました。

修正案はPull Request #22811としてSGLangコミュニティに提出され、採用されました。

SGLangはオープンソースプロジェクトであり、そのフルネームは大規模言語モデル向けの推論／サービスフレームワークを意味します。これは大規模モデルでもAI企業でもなく、大規模モデルを効率的に動作させるための基盤ソフトウェアです。

智谱はSGLangというオープンソースの推論フレームワークを使用している際、高並列キャッシュバグを発見しました。

それは自社内での修正にとどまらず、智谱はSGLangというオープンソースプロジェクトに修正コードを提出しました。

プロジェクトメンテナーが審査後に受け入れてマージされます。これにより、この修正がパブリックバージョンに取り込まれ、その後SGLangを使用する他の開発者や企業も利用できるようになります。

これは何を意味しますか？

もし千問の某个デプロイメントパスでSGLang+HiCacheが使用されている場合、阿里は智谱がこの問題を発見して修正したことで恩恵を受けることになる。

先ほど述べた通り、モデル自体は変わっていませんが、エンジニアリングの最適化により、使用時により賢くなりました。

02

智谱のこのブログが真正に突き刺したのは、より深い次元である。

チャットボット時代の安さは、主に訓練コストの低さに由来し、その一部の訓練データは上位モデルからの蒸留によって得られています。

エージェント時代には、この手は通用しない。

今年に入り、AnthropicとOpenAIは次々と蒸留のエントリーポイントを閉鎖し、自社モデルの出力を用いて競合モデルを訓練することを明確に禁止しました。蒸留による抜け道は、ますます狭まっています。

しかし、中国AI企業のコストパフォーマンスの物語は弱まっておらず、市場はむしろこの物語にさらに力を加えている。

理由は、コストパフォーマンスの定義が変わったからです。

チャットボット時代では、平均コンテキストが55Kトークン、単一の対話、低並列処理。

エージェント時代では、平均コンテキストが70K+トークン、長時間タスク（8時間級）、高並列処理、高プレフィックス再利用。

チャットボットの時代、AIのコストパフォーマンスの指標は単純だ。同じ質問をしたとき、どのモデルがより安価で、その回答が一流レベルに近いか。

業界では、100万トークンあたりの価格、モデルのパラメータ数、ランキングの成績が議論されています。

エージェント時代には、誰もこの質問をしなかった。このアルゴリズムは無効になった。

ユーザーが購入するのは単なる回答ではなく、一連のタスクの完了結果である。

コーディングエージェントはコードを読み、コンテキストを理解し、ステップを計画し、ツールを呼び出し、ファイルを修正し、テストを実行し、失敗した場合は再試行します。その消費するトークンは、1回の質問応答の増分ではなく、ワークフロー全体の合計です。

OpenRouterは世界最大の呼び出しプラットフォームであり、2026年1月第1週の6.4兆トークンから、2月9日週には13兆トークンへと、1か月で2倍に増加しました。

OpenRouterの公式見解によると、100Kから1Mの長文区間における増分呼び出し需要は、エージェントワークフローの典型的な消費シナリオです。

ユーザーがAIを利用するモードは、「対話型」から「プロセス型」に移行しています。そのため、AIのコストパフォーマンスの単位も「トークン単価」から「タスク単価」へと変わりました。

その結果、あるモデルはトークンが安価ですが、モデルの性能が劣るため、タスク実行中に常に失敗したり、タスク結果が基準を満たさなかったりし、結果としてそのエージェントの価格は決して安価ではありません。

たとえば、8時間のコーディングタスクで途中で1回でも乱码が発生すれば、全体のワークフローを再開しなければならなくなる。節約したトークン単価では、無駄にした時間を補いきれない。

中国AIのコストパフォーマンスの物語が進化しています。

以前は「同じ水準の回答を出力し、私はより安い」と言っていました。今は「同じくらい複雑なタスクを、より低コストで完了できます」と言っています。

オープンソースインフラも、中国のAIにおける新たな護城河となっている。

前述のSGLangがまさにそうです。中国のAIのエンジニアリング能力が、上流コミュニティに広がり始めています。

この出来事の価値は、智谱がバグを修正しただけではなく、中国のAI企業が実際のビジネスにおける高並列処理、長距離コンテキスト、エージェント呼び出しの課題を逆に公共インフラの能力として蓄積している点にある。

前述の通り、修正がSGLangのようなオープンソースフレームワークに取り込まれると、それは智谱自身のモデルのみに限定されなくなり、このフレームワークを利用して大規模モデルをデプロイするすべてのチームが、より安定したキャッシュ、より低い推論コスト、そして優れたエージェント体験を得られるようになります。

モデルの能力は追いつけるし、価格は引き下げられるが、インフラがオープンソースエコシステムに取り込まれると、標準やインターフェース、開発習慣になる。

より早く自らのエンジニアリング経験をこれらの基盤システムに取り入れた者が、次なるAIアプリケーションの爆発的拡大において有利な立場を確保しやすくなる。

03

資本市場に戻ります。

AI大規模モデル関連株が全線上昇、資本はAI企業に再評価を提供しようとしているのか？市場が購入しているのは実際には何なのか？

答えは、資本市場が「中国のAI企業がより低い推論コストで一流の知能に近い成果を出す」という物語に代金を支払っているということです。

OpenRouterのデータを基にすると。

中国のトップAI企業のトークン消費シェアは、2025年4月の5％から2026年3月には32％へ急騰した。米国のトップモデルのシェアは、58％から19％へ大幅に低下した。

MiniMax、智谱、阿里的トークン使用量は、2026年2〜3月に昨年12月と比較して4〜6倍増加しました。

トークンの呼び出し以外に、中国のAIは海外大手とは完全に異なる成長ロジックを構築しつつあります。

海外のトップモデルが「能力プレミアム」を販売しています。

モデルの能力が強くなるほど、1回の呼び出しコストが高くなり、ユーザーは最も高度な知能に料金を支払う。Claude、GPT-5、Geminiはすべてこの方向に向かっている。

中国のAIが「エンジニアリング」を販売している。

モデルの能力はトップレベルのモデルに迫っていますが、価格、遅延、呼び出しのハードルが低く、大多数の高頻度シナリオの要件により適しています。

モルガン・スタンレーのレポートによると、中国のモデルの入力価格は約0.3ドル/百万トークンであり、一部の海外同種製品の価格は約5ドル程度である。この間には十数倍の差がある。

AIが試用ツールから生産性ツールへと変わるとき、コストパフォーマンスが呼び出し頻度を直接決定する。

モデルのコストが安くなれば、企業はより多くのカスタマーサポート、コード、マーケティング、データ分析のタスクをそれに任せられるようになる。タスクが増えるほどトークン消費量が増え、プラットフォームはインフラコストをより効率的に分担できるようになる。

MiniMax

この段階で、それがフィールドを形成する可能性があります。

第1ラウンドでは、より低いAPI価格とより高い実用性を活かして、開発者と企業を引き付けます。

第2ラウンドでは、より多くの呼び出し量が実際のシナリオを増やし、モデルと推論システムのさらなる最適化を促します。

第3段は、智谱のこの技術ブログで述べられているように、エンジニアリング最適化によって単位トークンおよび単位タスクのコストを削減し、メーカーが価格引き下げや量の拡大、または高価値シナリオでの価格引き上げを可能にするものです。

第4ラウンドでは、トークンの消費がAI時代の新しいトラフィックとなる。より低コストでより多くのトークンを支えることができるのは、次段階のプラットフォーム型企業に近づく者である。

モデルの価格引き下げだけであれば、市場はこれが補助金や価格戦争であると懸念し、ますます資金が消費され、誰かのウォレットが持ちこたえられなくなるでしょう。

そして、価格戦争では高評価は維持できません。

しかし、価格引き下げの背後でスループットの向上、キャッシュの再利用、異常率の低下、スケジューリング効率の向上が実現されているのであれば、この低価格は利益を犠牲にして成長を図るのではなく、エンジニアリング能力によって生み出されたコストの余裕です。

価格戦争とこのようなエンジニアリング最適化の結果は、どちらもモデルをより安価にしますが、財務諸表上では似たように見えるかもしれません。しかし、評価モデルでは大きく異なります。

前者は補助金であり、市場は割引となる。後者は技術的障壁であり、市場はプレミアムとなる。

最後に判断を下すことができます。

過去、AI企業の評価はモデルの能力上限、つまりAGIにどれだけ近いかで決まっていた。当時の市場は「最強の知性」に支払い、その定義は次第にあいまいになり、1回の呼び出しコストはますます高くなった。

現在のエージェント時代において、評価はコストの下限を見なければならない。誰が知的で安定し、安価かつ大規模に提供できるかが鍵である。

最も先進的な「知性」を追求するには、これは中国のAIが得意とする分野ではないかもしれません。

しかし、中国のAIは、「知能」という二つの文字を、すべての人々と企業が利用できるインフラに最も可能性が高い。

しかし市場は、自らのロジックを明確に説明できる企業にしかお金を支払わない。

本文は微信公衆アカウント「字母榜」（ID：wujicaijing）より、著者：苗正