DeepSeekの10兆ドルの壮大な戦略
原文作者:@bookwormengr
原文編集:Peggy、BlockBeats
編集者注:過去1年間、DeepSeekに関する議論は主にモデルのパフォーマンス、オープンソース戦略、価格競争に集中していた。しかし、「サブスクリプションを販売するか」「マルチモーダル対応しているか」「コーディングエージェントとして機能するか」だけの視点でDeepSeekを理解すると、それが真正に変えようとしているものを過小評価することになる。
この記事は、DeepSeekの目標が短期的にアプリケーション層で収益化することではなく、MoE、MLA、DSA、CSA、mHC、Engram、Dual Path、TileLangに至る一連の基盤アーキテクチャの革新を通じて、AIのトレーニングと推論のコスト構造を再構築し、間接的に新たなハードウェアエコシステムを形成することであるという、より積極的な見解を提示している。HBM、先進プロセス、パッケージング、CUDAエコシステムが制約される中で、より少ない高級計算リソースでより強力なモデルを実行するにはどうすればよいかという核心的な課題に、DeepSeekの技術路線は一貫して取り組んでいる。
最も注目すべき点は、「DeepSeekがAPIやサブスクリプションで数億ドルを稼げるかどうか」ではなく、モデルの能力、メモリアーキテクチャ、そして国内ハードウェアエコシステムをどのように統合しているかである。KV Cacheの圧縮はHBMへの依存を低下させ、NANDやSSDが長時間キャッシュを担い、LPDDRは重みのストリーミングロードとEngramの保存に使用され、TileLangはCUDAの護り壁を弱めようとしている。これらの革新が継続的に広がれば、恩恵を受けるのはDeepSeek自身だけでなく、ストレージ、ASIC、GPU、ネットワークチップ、そしてAIインフラ全体のチェーンとなる。
「10兆ドルの産業エコシステム」や「1兆ドルの評価額」という主張は、依然として強い推測を含んでいる。しかし、これはDeepSeekを理解するための重要な道筋を提供している:オープンソースであることは必ずしも商業化を放棄することを意味せず、低価格であることは必ずしも市場への補助を意味しない。DeepSeekにとって、真のビジネスはアプリケーション層ではなく、より多くのハードウェアを実用化し、より低コストのAI供給を可能にすることにある。言い換えれば、彼女たちが販売しているのはモデルそのものではなく、次世代AIインフラの実現可能性である。
以下为原文:

DeepSeekがどのようにして、そしておそらく多額の利益を上げるのか、考えたことはありますか?
GLM、MoonShot、MiniMaxのように競争力のあるプログラミングサブスクリプションプランを提供していない。マルチモーダル、オーディオ、ビデオモデルも備えていない。これまで、モデル呼び出し、ツール接続、タスク実行のための外側の実行フレームワークであるハーネスすら持っていなかった——ただし、最近ようやく関連職種の採用を開始し、このシステムを構築する準備を進めている。
一方で、DeepSeekはオープンソースを長く堅実に支持し、自らの「秘訣」を公開することさえいとわないようです。これは狂気ではないでしょうか?無駄に資金を消費しているのではないですか?100億ドルを投資しようとしている投資家たちは、お金を下水道に捨てているのでしょうか?
私は個人的に、答えは逆だと思う。
次に、DeepSeek がこれまで行ってきたことを基に、いくつかの観察を提示し、それが従っているように見える戦略を分析します。DeepSeek のCEOである梁文鋒の目標は、眼前的なモデル競争を超えており、彼が狙っているのはより大きな賞賛かもしれません。DeepSeek は1兆ドルの評価を達成する機会があり、同時に10兆ドル規模の新産業を推進する可能性があります。

TechInAsiaによるDeepSeekの最新ラウンドの資金調達に関する報道
DeepSeekの「英雄の旅」を再訪する
DeepSeek は逆風の中を進んできました。彼らは、少しずつ強化されたモデルを次々とリリースし、プログラミングサブスクリプションなどの即時収益化アプリに急いで包み込むという選択肢を取っていませんでした。2025年1月27日、私はDeepSeekの「ヒーローの旅」について、広く拡散されたツイートを投稿しました。今、その物語はさらに興味深くなっています。
他の人々が密度の高いモデルの構築を試みている中、DeepSeekはより訓練が難しいエキスパート混合モデル(Mixture of Experts、MoE)を選択しました。
彼らは「第一原理」のアプローチを採用し、当時主流であったが実装コストが高いPPO強化学習アルゴリズムに代わる新しいGRPOアルゴリズムを発明しました。
彼らは、検証された報酬に基づく強化学習(Reinforcement Learning from Verified Rewards,RLVR)がモデルの推論能力を向上させる鍵となる戦略であることを発見しました。
また、彼らは「マルチトークン予測」(Multi Token Prediction)を通じて、単純な推論デコード戦略を提案し、トレーニング信号をより密度高くしています。
彼らは、限られたGPUリソースの利用効率を向上させるために、「ゼロバブル」(ZERO bubble)パイプラインを完成させました。
彼らはエキスパートロードバランサーをリリースし、誰でもMoEモデルをより簡単にデプロイできるようにしました。特に「ワイドエキスパートパラレル」戦略を通じて、モデルはより大きなバッチでサービスを提供でき、推論コストを大幅に削減できます。
彼らは、KVキャッシュの必要性を削減し、コンテキスト長の増加に伴う計算要求の増加を可能な限り一定に保つために、MLA、DSA、CSA、HCAなどのメカニズムを考案しました。
彼らはEngramを発明し、メモリを犠牲にして計算効率を向上させました。
彼らはまた、モデル規模が拡大しても安定したトレーニングを実現できるmHCを発明しました。同様の例は他にも多数あります。
最も一般的な物語構造である「英雄の旅」において、英雄は決して旅の目的地を最初から決めているわけではない。彼は旅の途中で学びを重ね、自らの真の偉大な使命を発見し、数多くの障壁を乗り越えてそれを成し遂げる。彼は多くの疑念を抱く者たちに出会うが、彼らを無視することを選ぶ。また、多くの悪意ある行動者とも出会う。彼には明確な欠点や短所があるが、最終的にはそれらを克服し、使命を果たす。彼は乗り越えられないように見える挑戦に直面するが、同盟を結ぶ方法を見つけ、限られて貴重なリソースを賢く使う方法を学ぶ。正是这一点,让观众愿意为英雄加油。这也是 DeepSeek 赢得追随者、全球尊重以及反对者的原因。
私が今後詳しく説明するように、DeepSeek はこの道を長く歩み、自らの最終的な運命を徐々に見出してきました。その目標はプログラミングサブスクリプションプランの販売ではなく、10兆ドル規模の中国AIハードウェアエコシステムを推進し、自社の価値を1兆ドルに引き上げることです。その過程で、多くの新規参入者に西方ハードウェアエコシステムの機会を提供することになります。

まず、いくつか興味深いKVキャッシュの計算から始めましょう
@SemiAnalysis_ の最近のこのツイートをご覧ください:

DeepSeekは、この問題を誰よりも優れて解決しました!
まず、少し面白いKV Cacheの計算をしてみましょう。数学が苦手でも安心してください。最近リリースされたKV Cache計算ツールを使用して、DeepSeek V4 ProがどれだけのKV Cache削減をもたらすかを確認し、最新のGLMおよびQwenモデルと比較します。
ここで私は100万のコンテキスト長で計算し、KVの精度を8ビット、インデクサーの精度を16ビットと仮定します。ご自身でこの計算ツールをお試しください:https://kvcache.ai/tools/kv-cache-calculator/

自分で電卓を開いて試してみてください!
100万のコンテキスト長で:
·DeepSeek V4はわずか5.48GBのHBMしか必要としません;
·GLM-5は60GBのHBMを必要とします;
·Qwen3-235B-A22Bには最大89GBのHBMが必要です。
注意してください:
·DeepSeekは1.6兆パラメータのモデルです;
·GLM-5は約7000億パラメータで、DeepSeekのMLAとDSAを採用していますが、最新の圧縮アテンションメカニズムは使用していません。
·Qwen3-235B-A22Bは約2350億パラメータで、GQAアテンションメカニズムを採用しています。
DeepSeekはメモリ負荷の軽減において、基盤的な貢献を果たしてきました。このような革新が広く採用されれば、長期間エージェントの運用コストを大幅に削減し、次の波の新しいアプリケーションシーンを解き放つことになります。

100万トークンのコンテキストとモデル規模におけるKVキャッシュの占有量比較
「狂気」の背後にある方法論
KVキャッシュのサイズがこれほど小さく、モデルの品質を犠牲にせずに済むのは、DeepSeekが極めて低価格で長時間のキャッシュを提供できる理由です。その価格はSonnet 4.6のキャッシュヒット価格の3%未満であり、DeepSeekはキャッシュを数時間保持できます。
長周期タスクにおいて、小さなKVキャッシュはSSDにより経済的にオフロードし、必要に応じて再読み込みできることを意味します。これにより、HBMへの依存を減らすことができます。中国のAIハードウェア産業の観点から見ると、HBMは供給が逼迫しているだけでなく、最も製造が難しいメモリタイプの一つでもあります。
また、DeepSeekは、そのDual Path論文で既に説明されているように、SSDからKV Cacheをより高速に読み込む技術を開発しました。

DeepSeek V4はKV Cacheの圧縮率が非常に高いため、このステップはもはや必要ない可能性さえあります。
それでは、KVキャッシュ圧縮の最も直接的な受益者は誰ですか?
大規模にSSDを供給しているのは誰ですか?YMTC(長江ストレージ)が3D NAND分野の巨頭へと成長していることを忘れないでください。NANDはDeepSeekがKVの再計算を回避するのに役立ちます。逆に、DeepSeekはNANDとSSDに大きな市場を生み出します——これは長江ストレージだけでなく、関連する他のメーカーにも利益をもたらします。

しかし、これはNANDとSSDだけの話ではありません。
LPDDRメモリにも大きな可能性があります。これはモデルの重みを格納し、必要に応じてこれらの重みをHBMにストリーミングすることで、HBMへの需要を軽減できます。SGLangチームはこの仕組みについて優れたブログ記事を公開しています。以下の図は、このソリューションの動作原理を示しています。
DeepSeekはこのソリューションのために特別に設計されたわけではありませんが、そのMoEアーキテクチャ、多数のエキスパートモデルを備えていること、および4ビット重みの特性により、このソリューションの実装がより容易になります。

この図は、メモリがどのように使用されるか、およびモデルの重みがLPDDRからHBMへストリーミングされる様子を示しています。SGLangのブログ記事を読むことを強く推奨します。
この革新が、極めてコンパクトでロスレスなKVキャッシュと組み合わされると、HBMへの需要を大幅に削減できます。
では、中国でLPDDRを生産しているのは誰でしょうか?答えはCXMT、つまり長鑫存储です。彼らはLPDDRの速度では約半世代遅れ、密度では一代遅れですが、差はそれほど大きくありません。
NANDが十分に確保されるだけでなく、中国のAIエコシステムは近い将来、LPDDRの供給も十分に確保できるようになります。これは計算能力の圧力を軽減できるでしょうか?答えは:はい。以下をご覧ください。

メモリを賢く使用することで、GPU/ASICの負荷を軽減できます。
NANDを使用してKVキャッシュを保存する効果は簡単に理解できます:KVキャッシュの保持時間を延ばし、HBMへの負荷を軽減すると同時に、KVキャッシュの再計算を回避することで、GPUおよびASICの計算負荷を軽減できます。
では、LPDDRも同様の方法で機能するでしょうか?「必要に応じて即時」で重みをHBMにストリーミングするための記憶領域としてだけでなく、計算負荷をさらに軽減することも可能でしょうか?
答えは:はい。
LPDDRは、Engramと呼ばれる大量のコンテンツを格納するために使用できます。DeepSeekのEngram論文では、MoEは条件計算によってモデルの容量を拡張できるが、Transformer自体にはネイティブな「知識検索」メカニズムが欠けていると指摘されています。そのため、Transformerはしばしば計算を用いて検索プロセスを非効率に模倣せざるを得ません。
この問題を解決するために、DeepSeekはEngramモジュールを提案しました。これは古典的なN-gram embeddingを現代化し、ハッシュに基づくO(1)検索メカニズムに変換することで、彼らが条件メモリ(conditional memory)と呼ぶ補完的なスパース化パスを実現します。
この方法は計算を節約できますが、埋め込みテーブルを保持するためにメモリが必要であり、このテーブル自体が非常に巨大になる可能性があります。
本質的には、これは典型的な「メモリを計算に交換する」ソリューションです。しかし、その鍵となる洞察は、1ビットのデータ読み取りコストの観点から見ると、「メモリ」側がはるかに安価であるということです。1回のLPDDR検索は、データを複数層のTransformerを通じて1回のフォワード計算を行うよりもはるかに安価です。したがって、大規模なシナリオでは、これは非常に得な交換です。
これはDeepSeekが一部のメモリを犠牲にして計算を節約する方法です。

価値のある選択
同等レベルのチップトランジスタ密度やEUVがないため、中国のGPUおよびASICは、原始的なFLOPs演算能力において、西側のGPUと比較して長期的に遅れをとる可能性が高い。また、先進的パッケージング面でも明確な差が存在する。したがって、中国がNANDおよびLPDDRメモリを大量に生産できるという前提のもと、このようなトレードオフは非常に価値がある。
DeepSeekの長期戦略を振り返る
これらの革新を見ると、DeepSeekの目標は現在数億ドルの利益を上げることではないようだ。これまでの多くの選択がそれを示している:いまだにマルチモーダルモデルがなく、音声モデルもなく、動画モデルなど論外である。
実際に参加しているのは、忍耐強く、規模が10兆ドルに達する可能性のある長期的なゲームであり、代替的なAIハードウェアエコシステムの構築を推進することである。
これは、中国のメモリメーカーが中国およびグローバルなAIハードウェア市場で重要なプレーヤーとなるためだけでなく、リソース要件を根本的に削減し、AIモデルのトレーニングとサービスをよりコスト効率よくするためでもあります。これにより、多くのGPU、ASICメーカー、およびネットワークチップメーカーが実用的な選択肢となる機会を得られます。
同時に、これらの革新は西洋のオープンソースエコシステムと次世代のハードウェアメーカーにも恩恵をもたらします。
すべての兆候はすでに現れています。では、DeepSeek がこれまでに提唱してきたこれらの革新を詳しく振り返ってみましょう。
1、DeepSeek V2 に導入されたモジュラー・エキスパート・モデル(MoE)とMLA
DeepSeekはV2でMoEとMLAを導入しました。MoEは、高知能モデルのトレーニングに必要な計算量を約40%~50%削減し、MLAはKV Cacheを90%削減します。
これにより、KVキャッシュをSSDにオフロードすることが非常に効率的になります。
これらのアイデアは、DeepSeekが2024年5月に発表したDeepSeek V2の論文で初めて登場しました。その後、これらはDeepSeek V3のトレーニングの基盤となりました。当時、DeepSeekは性能が制限されたH800 GPUを2048枚のみ使用して、閉源モデルに近い性能を持つシステムをトレーニングしました。

2、DSA:DeepSeek V3.2 Expで導入され、長いコンテキストシナリオにおける計算オーバーヘッドを削減し、HBM帯域幅の負荷を軽減します。
DSAの主な役割は、コンテキストの長さが増加しても計算量が継続的に増加しないようにすることです。以下のチャートをご覧ください。コンテキストの長さが増加しても、DeepSeek-V3.2の処理時間はほぼ安定しています。

3、mHC:DeepSeekは2025年12月の論文『mHC: Manifold-Constrained Hyper-Connections』で提案しました。
mHCは、DeepSeekがマクロアーキテクチャレベルで実現した革新であり、Transformer層間の情報フローを再設計しています。
過去、ResNet以降、モデルは通常、x + F(x)という標準的な残差接続を使用してきた。一方、mHCは、残差フローを複数の並列情報チャネルに拡張し、モデルがこれらのチャネル間で学習可能な混合を行うことを可能にする。重要な点は、混合行列を双確率行列に制約し、Sinkhorn-Knopp射影によってBirkhoff多面体上に制限することである。これにより、数学的に保証されるのは、モデルがどれほど深く積み重なっても、信号の振幅が安定して維持されることである。
これにより、従来の制約のないHyper-Connectionsが直面していた破壊的な不安定性の問題が解決されました。Hyper-Connectionsは当初ByteDanceによって提案されましたが、制約がない状態では、270億パラメータ規模で信号の増幅が3000倍にまで膨れ上がり、最終的に学習が完全に崩壊しました。
mHCの計算コストは非常に低く、注意力層とFFN層のFLOPsを変更せず、これらの層の出力の層間ルーティング方法を変更するだけであるため、実際のトレーニング時間のオーバーヘッドは約6.7%にすぎません。
しかし、その性能向上は顕著です:270億パラメータ規模で、mHCはBIG-Bench Hard推論タスクで7.2点、DROPで3.2点、GSM8K数学タスクで2.8点、MMLU汎用知識タスクで1.4点向上しました。これらの向上は、同じモデル規模、ほぼ同じ計算予算で実現されています。
本質的に、mHCは、追加のFLOPsをほとんど増加させることなく、ネットワークにより豊かで表現力のあるクロスレイヤー情報ルーティングトポロジーを提供することで、単位パラメータあたりの知能を向上させています。

mHCは複雑なアーキテクチャ設計ですが、より安定したトレーニングプロセスと高い単位パラメータ知能を実現します。
4、CSA、HSA:DeepSeekは2026年4月にV4で導入されました。
CSAおよびHSAの目標は、KV Tokenを圧縮することでKV Cacheの必要量をさらに90%削減し、必要なFLOPsを大幅に削減することにより、HBMおよびGPU/ASICの両方の負荷を軽減することです。

5、Engram:DeepSeekが2026年第1四半期に導入し、本質的には、ある程度メモリ、すなわちLPDDRメモリを用いて計算効率を向上させる。
以下の詳細なチャートに示すように、総パラメータ予算が同じ場合、Engramは顕著なパフォーマンス向上をもたらしました。

6、Engram:2026年第1四半期にDeepSeekが導入し、本質的には、計算効率を向上させるために、メモリ、すなわちLPDDRメモリを活用します。
以下の詳細なチャートに示すように、総パラメータ予算が同じ場合、Engramは顕著なパフォーマンス向上をもたらしました。

これはDeepSeekがV4論文でハードウェアメーカーに共有した提案です。オフラインでのやり取りでは、彼らが提供するフィードバックはさらに多いことでしょう。
7、TileLangへの投資は、同じ方向を示している:DeepSeekは自社の計算能力のボトルネックを解決するだけでなく、中国のハードウェアエコシステムが西洋のエコシステムと競争できる能力を推進している。
TileLang を使用することで、開発者は計算用の底层コードであるカーネルを一度だけ記述し、対応する TileLang バックエンドが既に存在する複数のハードウェアプラットフォーム上で実行できます。
他の中国のAIラボも次々と参加すると予想されます。これにより、中国のハードウェアメーカーは間接的に「CUDAのモラル」に対応できるようになります。同時に、AMDなどの西洋製ハードウェアの可能性もさらに引き出されます。
中国の多くのAIハードウェアプラットフォームは、CUDA互換機能またはCUDA変換レイヤーを提供しています。たとえば、モールセンス、ムーシー、ビレン、テンシューチップは、変換レイヤーを通じて高いCUDA互換性を実現した中国の半導体メーカーです。したがって、理論的には、これらはTileLangを必ずしも必要としません。

大規模な強化学習とRSI
DeepSeekがより多くの計算リソース、つまり選択可能なハードウェアが増えるとともに、モデル自体の計算リソースへの要求が低下することで、より野心的なトレーニングプロジェクト、特に強化学習による後トレーニングを推進できるようになります。
強化学習では、数兆トークンに及ぶ多数のトレジャクトを生成する必要があり、このプロセスはすぐに非常に高額になります。さらに、100万トークンのコンテキスト長を持つモデルを訓練するには、同様の長さのトレジャクトを生成する必要があります。超長距離トレジャクトでのみモデルを訓練することで、長期タスクを真正にサポートできます。
また、ハードウェアオプションの増加により、DeepSeekが利用できるハードウェアリソースも増加し、これはRSI(自動化研究)を推進します。RSIとは、AIが自ら実験を設計し実行することを指します。この方法は大量の試行錯誤を伴い、コストは急速に上昇します。しかし、RSIはモデル設計空間全体を探索する上で不可欠です。AGIへ、そしてその後ASIへ向かう前に、DeepSeekはRSIの能力を備える必要があります。
DeepSeekが今日行うことは、業界全体が明日追随するだろう
DeepSeekが専門家混合モデル、MLA、DSAなどの分野で行った革新は、世界中および中国の他のAIラボによって次々と採用されています。
たとえば、GLMシリーズモデルの開発元であるZAIはMLAとDSAを採用しています。Kimi、すなわちMoonshotもMLAを採用しており、そのアーキテクチャがDeepSeekアーキテクチャに基づいていることを公然と明言しています。逆に、DeepSeekはMuonオプティマイザを使用しており、MuonはもともとKimi(Moonshot)が大規模トレーニングで採用したものです。
ご注意ください:
MoEは2017年にGoogleによって最初に提案され、主な著者はNoam Shazeerである。DeepSeekの貢献は、MoEを大規模に適用し、独自の関連テクニックを発明したことである。
Muon、すなわち Newton-Schulz オプティマイザによって直交化された MomentUm は、2024 年末に機械学習研究者 Keller Jordan によって提案されました。Kimi(Moonshot)チームは、これを大規模トレーニングに適用した最初のチームです。
では、利益を出す問題はどうすればよいですか?
OpenAIという興味深い例を見てみましょう。
OpenAIは、AMDおよびCerebrasの株式を较低価格で購入するためのワラントまたはオプションを取得し、これらの権利はその計算能力の消費マイルストーンと連動している。AMDおよびCerebrasにとって、これは非常に有利な取引である。なぜなら、OpenAIがそれらのハードウェアを使用することを約束すれば、それらの長期的な成功の可能性が大幅に高まるからである。
AMDの公告には、次のような記述があります:
プロトコルの一環として、両者の戦略的利害をさらに調整するため、AMDはOpenAIに、最大1億6千万株のAMD普通株を購入できるワラントを発行し、特定のマイルストーンの達成に応じて段階的に付与されます。最初の分は、初期の1ギガワットの導入が完了した時点で付与され、その後の分は調達規模が6ギガワットに拡大するにつれて段階的に付与されます。付与条件には、AMDが特定の株価目標を達成すること、およびOpenAIがAMDの大規模導入に必要な技術的・商業的マイルストーンを達成することが含まれます。

私は、DeepSeekが中国のメモリ、ASIC、CPU、およびネットワーク技術スタックの複数のメーカーとも同様の協定を結び、それらのハードウェアスタックが最先端のAIワークロードに対応できるよう深く協力すると予想しています。
すべての西洋諸国、東アジアの同盟国を含むAI株式の総時価総額はすでに10兆ドルをはるかに超えており、この「協力によるエクイティリターンの獲得」というアプローチは、DeepSeekが中国で同規模の産業を構築し、その中で自らのシェアを獲得し、最終的に1兆ドルの評価額を実現する機会をもたらすだろう。
これはDeepSeekが従来のアプリサブスクリプションビジネスをはるかに上回る収益を上げるだけでなく、同社が掲げる「AGIをすべての人に恩恵を与える」という目標を実現する也能します。梁文鋒はJim Simonsの忠実なファンであり、十分に賢い資本プレイヤーであるため、この点を見逃すことはあり得ません。
DeepSeek がこれまで行ってきたすべてを振り返れば、この説だけが最も納得できる。

これらは主要なAI株です。図には、ハイパースケーラー(大規模クラウドプロバイダー)やその他の多くの関連企業は含まれていません。
元のリンク
