DeepSeek V4、国内AIチップ上で安定したパフォーマンスを発揮

文 | 世界モデル工場

DeepSeek V4が、再び中国全体を震撼させた。

パラメータ規模、コンテキスト長、ベンチマークスコア……これらの技術指標は、さまざまな報道で繰り返し比較されてきた。

しかし、表面的なデータにとどまると、このリリースの最も戦略的な核心を見逃すことになる。

過去3年間、中国の大規模モデルは常に次の尴尬な現実に陥っていた：訓練も推論もNVIDIAに依存しており、国内製チップはバックアップオプションに過ぎなかった。

NVIDIAが供給を停止すると、中国のモデル圈全体が不安に陥る。

しかし今日、DeepSeek V4はその実力で証明しました：

先進の兆パラメータ級の大規模モデルは、国内製計算資源上で安定かつ効率的に動作します。

この出来事の意味は、モデルの技術指標そのものをはるかに超えています。

国产化的突破

この国産化対応の難易度を真正に理解するには、NVIDIAのチップ帝国を理解する必要がある。

NVIDIAが所有するのはチップだけでなく、高度に閉鎖された完全なエコシステムです：

ハードウェア面では、GPUチップファミリーに加え、NVLinkおよびNVSwitchを用いてチップ間を高速で接続するネットワークが実現されています。

ソフトウェア上で、CUDAはNVIDIAが十数年にわたり精心して開発したAIオペレーティングシステムです。

それは、最下層のオペレーター（モデル計算の基本単位）から並列計算、メモリ管理、分散通信まで、すべてNVIDIA GPU用に最適化された工場のようなものです。

言い換えれば、NVIDIAはエンジンを売るだけでなく、道路、ガソリンスタンド、整備工場、ナビゲーションシステムまで整備しています。

世界トップレベルの大規模モデルはほぼすべてこのエコシステムで育まれています。

国内の計算能力に切り替えると、まったく異なる状況に直面する。

ハードウェアアーキテクチャが異なり、接続方式が異なり、ソフトウェアスタックの成熟度が異なり、ツールエコシステムはまだ急速に追いつこうとしています。

DeepSeekが国内チップに対応しようとしているのは、単にエンジンを交換するだけではなく、すでに高速道路を高速で走行しているレーシングカーに、まだ工事中の山道を走らせるようなものである。

わずかな不注意で、振動や減速、さらには車両全体が前進できなくなることがあります。

今回は、DeepSeek V4がCUDAパスにのみ集中するのではなく、国内算力のソフトウェアスタックへの適配にも同時に着手しました。

公開情報によると、V4は国内製推論チップに基づいて突破を達成し、华为昇騰950チップに深く最適化され、寒武紀もモデル発表当日に安定して動作可能となり、真正的にDay 0最適化を実現しました。

これは、最先端モデルが国内チップアーキテクチャ内で実装される可能性を示しています。

DeepSeek V4はどのように実現したのでしょうか？

最初のステップは、モデルアーキテクチャ層で発生します。

V4は、国内製チップに1Mのコンテキストを無理に押し付けるのではなく、まずモデル自体をより省リソース化しました。

公式技術レポートにおける最も重要な設計は、CSA + HCAハイブリッドアテンションメカニズムとKVキャッシュ圧縮などの長コンテキスト最適化です。

簡単に言えば、従来の長文コンテキスト推論では、モデルが質問に答えるたびに、まるで図書館全体を広げて探すような処理を行い、VRAM、帯域幅、計算リソースが急速に消費されます。

V4のアプローチは、図書館内の資料を再インデックス化し、圧縮してフィルタリングして、最も重要な情報のみを計算パイプラインに送ることです。

これにより、1Mのコンテキストはもはやハードウェアの力任せではなく、まずアルゴリズムによって計算帳とVRAM帳を小さくします。

これは国内の半導体にとって非常に重要です。

モデルが依然としてVRAM帯域幅と成熟したCUDAライブラリに大きく依存している限り、国内製チップでは実行は可能でも、安価で安定して実行するのは難しい。

V4で推論負荷を事前に軽減することは、本質的に国内の計算リソースの負担を減らすことです。

第二ステップは、MoEアーキテクチャとアクティブパラメータ層で発生します。

V4-Proは総パラメータ数が1.6兆ですが、毎回の推論では約490億のパラメータのみが活性化されます。V4-Flashの総パラメータ数は2840億で、毎回の推論では約130億のパラメータが活性化されます。

これは、毎回すべてのパラメーターを引き出して計算するのではなく、大規模な専門家チームのように、タスクが来たら関連する専門家だけを呼び出すようなものです。

国内芯片同样重要。

これにより、毎回の推論にかかる計算負荷が軽減され、長文コンテキストやエージェントシナリオも推論カードでより扱いやすくなります。

第三ステップは、オペレーターとカーネル層のアダプテーションです。

CUDAエコシステムの最大の強みは、多数の低レベル計算がNVIDIAによって成熟させられており、多くの高性能計算を直接呼び出せることである。

V4の意義は、その一部の重要な計算をNVIDIAのブラックボックスから抽出し、より移行可能で適応可能なカスタム計算パスに変えることにあります。

簡単に言うと、V4はエンジンの最も重要な部品を取り外し、華為昇騰や寒武紀などの企業が自社のチップ構造に合わせて再調整できるようにしたものです。

第四ステップは、推論フレームワークとサービス層です。

国产チップの対応が「デモを動かす」段階にとどまるだけでは、産業的な意義は小さい。真に注目すべきは、それが呼び出し可能で課金可能なサービス体制に組み込まれられるかどうかである。

内部テストによると、昇腾950PR上でV4の推論速度は以前のバージョンと比較して大幅に向上し、消費電力も明確に低下しました。特定の低精度シナリオにおいて、1枚のカードのパフォーマンスはNVIDIA専用H20の2倍以上に達しています。

DeepSeek公式によると、現在のV4-Proは高パフォーマンス計算リソースに制限され、サービス処理能力が限られています。今年下半期に昇騰950スーパーノードが大量に市場投入された後、価格は大幅に引き下げられる見込みです。

これは、昇騰などの国内製ハードウェアが量産されることで、V4の今後のスループットとコストパフォーマンスがさらに最適化されることを示しています。

ただし、V4はNVIDIAのGPUとCUDAを完全に置き換えるものではありません。モデルのトレーニングはまだNVIDIAに依存している可能性がありますが、推論は段階的に国内化が進んでいます。

これは非常に現実的なビジネスパスです。

トレーニングは段階的な投入であり、一度トレーニングし、一度調整し、一度イテレーションします。推論は継続的なコストであり、毎日千万、億単位のユーザーが呼び出し、そのたびに計算リソースを消費します。

モデル企業の真の資金消費の大部分は、長期的に推論にシフトしていく。誰がより安価で安定して推論需要を引き受けるかが、産業応用において実質的な優位性を獲得できる。

DeepSeek V4は、中国の最先端モデルの推論デプロイにおいて、NVIDIA CUDAをデフォルト前提としない道を初めて開いた。

このステップはすでに十分に重みがあります。

V4が産業応用に与える影響

国産チップの互換性が「動くかどうか」を問うのに対し、価格はもう一つ現実的な問題を問う：

企業は利用できますか？

過去、DeepSeekの最も優れた点は、最先端モデルに近い能力を極めて低価格で実現できたことだった。

V3、R1の時代はそうだったように、V4もまた同じである。

今回は、通常のコンテキストウィンドウ内で価格競争を行うのではなく、1Mコンテキスト＋エージェント機能を前提にさらに価格を引き下げています。

DeepSeek公式価格に従って：

V4-Flashのキャッシュヒット入力は0.2元/百万トークン、キャッシュミス入力は1元/百万トークン、出力は2元/百万トークンです；

V4-Proのキャッシュヒット入力は1元/百万トークン、キャッシュミス入力は12元/百万トークン、出力は24元/百万トークンです。

これを同類の国内モデルに挿入して見てください：

阿里Qwen3.6-Plusの256K-1Mレンジと比較すると、V4-Proの出力価格はその約半分であり、V4-Flashはさらに低い。

小米MiMo Proシリーズの256K-1Mレンジと比較すると、V4-FlashとV4-Proはどちらもはるかに安価です。

Kimi K2.6のコンテキスト長は256Kですが、対照的に、V4-Proはより長いコンテキスト長でより低い価格です。V4-Flashは、高頻度呼び出しのコストをさらに一桁下げています。

これは企業アプリケーションにとって非常に意義があります。

1Mのコンテキストは、モデルが一度にコードリポジトリ全体、厚い契約書の束、数百ページのプロスペクト、長期的な会議録、またはエージェントがタスクを連続実行中に蓄積した履歴状態を読み取れることを意味します。

過去、多くの企業がこの点で立ち止まった。モデルの能力は十分だが、コンテキストが不足している；コンテキストは十分だが、価格が高すぎる；価格は受け入れられるが、モデルの能力が安定していない。

たとえば、企業が投資研究エージェントを構築する場合、モデルに企業の年次報告書、決算電話会議、業界レポート、競合他社のニュース、および内部メモを同時に読み込ませる必要があります。

コンテキストが128Kまたは256Kのみの場合、システムは繰り返しスライス、検索、要約を必要とし、情報が複数回の圧縮によって失われます。

1Mのコンテキストにより、モデルはより多くの元の素材を保持し、見落としや断片化を減らすことができます。

例えばコードエージェント。

それは一度に数行のコードを書くのではなく、リポジトリを読み取り、依存関係を理解し、ファイルを修正し、テストを実行し、エラーに応じて修正を加えることです。このプロセスは繰り返しトークンを消費します。

一步が高価であれば、エージェントはデモにとどまるしかないが、トークンが十分に安価であれば、実際の開発プロセスに進む可能性がある。

これはV4の産業価値でもあります。

最も強力なモデルとは限らないが、企業で最も頻繁に使用されるモデルになる可能性がある。

DeepSeekは、AIを大手企業だけの専用ツールから、あらゆる業界で規模拡大可能な生産性ツールへと再び変貌させました。

V4の真の価値

1Mのコンテキストが極めて低価格で産業の最前線に到達するとき、DeepSeek V4の真の価値が明らかになる。

これらは、国内の計算能力がまだ未熟であるという基盤の上に築かれています。

国内の半導体エコシステムにおける体系的な差異に直面し、DeepSeekチームはエコシステムが成熟するのを待たずにリリースを選択しました。

彼らはリリースウィンドウを繰り返し延期し、数ヶ月をかけて華為技術などのパートナーと深く連携して調整を行った。このエンジニアリングの難易度は、外部の想像をはるかに超えている。

そのため、V4が国内の計算能力でトップレベルの閉源モデルに近い推論とエージェント機能を実現したことは、特に難しいことである。

V4において、自ら証明したように、ハードウェアエコシステムの段階的な差異に直面しても、中国チームは極限のエンジニアリング投資とソフトウェア・ハードウェアの協調イノベーションを通じて、競争力のあるパフォーマンスを実現できる。

もちろん、完全な成熟にはまだ距離があります。

昇騰プラットフォームのツールチェーンの完成度、超大規模クラスタの安定性、およびより多くの垂直分野における深層最適化には、産業界の皆様の引き続き協力が必要です。

しかし、V4の成功は、後続のモデルにとって参考となる道を切り開きました。

それはAIサプライチェーン全体の自立と制御に強力な推進力をもたらしました。

不確実な外部環境の中、制約の中でも前進し続けるこのしなやかさは、単なるパラメータ指標よりもより尊重に値します。

称賛に惑わされず、中傷に恐れず、道に従い、自らを正しく保つ。

これはDeepSeek公式からの文であり、まさにそれ自身の最良の注釈である。