CerebrasのウェーハスケールAIチップが推論時代のメモリーボールを突破

2026年、世界のAI発展は画期的な転換点を迎えた——大規模クラウドプロバイダーの推論における資本支出が、歴史上初めて訓練の資本支出を上回った。産業の焦点は「大規模モデルの訓練」から「大規模モデルの利用」へと移行し、計算リソース需要の構造が根本的に転換した。

トレーニング時代には、計算能力の核心的な矛盾は「倍精度浮動小数点とクラスタ規模」であったが、推論時代に入ると、その核心的な矛盾は「メモリ帯域幅と通信遅延」に変わった。

大規模モデルの推論のボトルネックはもはや計算ではなく、データの移動である——モデルの重み、中間活性値、KVキャッシュがチップ外のDRAM（HBMなど）とGPUの間で頻繁にやり取りされる。モデルが大きくなるほど、データ移動にかかる消費電力と遅延が増加し、最終的には計算そのものの消費電力をはるかに上回り、メモリーワールドを形成する。

NVIDIA GPUはCUDAとNVLinkによって堅固な壁を築いているが、帯域幅のボトルネックによるGPUの空転を避けられない。

国内の大規模モデル企業である智谱は、非常にシンプルな実験を行いました。512枚のGPUからなる推論クラスタで、GPU、モデル、コードを一切変更せず、ネットワーク帯域幅の上限を200GB/sから400GB/sに変更したところ、推論スループットが10%向上し、最初のトークン出力レイテンシが19%低下しました。道理は単純です。道路を広げれば、車はより速く走れるようになります。

しかし、Cerebrasを代表とするGPU以外のアーキテクチャは、メモリの壁に一道の裂け目を生み出しているようだ。

ウェハレベルチップ

Cerebras WSE-3チップとNVIDIA B200 GPUのサイズ比較

Cerebrasの本質：SRAMに基づく近接メモリ計算機

Cerebras Systemsは、アンドリュー・フェルドマンらによってシリコンバレーで設立され、初期の創業チームはすべて、後にAMDに買収された低消費電力マイクロサーバー企業SeaMicro出身であった。

2015年、創設チームは「ウェハレベルコンピューティング」の路線を確立した；

2016年、登録完了、Aラウンド資金調達を終え、隠密開発段階に入りました；

2019年、初の製品であるWSE-1チップとCS-1システムをTSMCの16nmプロセスでリリース；

2021年、TSMCの7nmプロセスに基づく第2世代製品をリリース；

2024年、第三代製品（WSE-3 / CS-3）をリリース。TSMCの5nmプロセスを採用し、チップおよびシステムはすべて米国で製造された、本格的な米国製チップシステムです。

ウェハレベルチップ

CS-3システム構成、1枚のWSE-3チップを含む

Cerebrasのウェーハスケールエンジン（Wafer-Scale Engine, WSE）アーキテクチャの哲学は、単純で力強いが、核心を突いている：物理的な空間を極限まで拡大することで、データ移動の遅延を極限まで圧縮する。

従来のチップは、ウエハーを多くの小さなチップに切断します。たとえば、NVIDIAのGPUはこのアプローチです。一方、Cerebrasは逆に、ウエハーを切断せず、ほぼ全体を1つの超大規模チップとして作成します。これをWafer-Scale Engine（WSE）と呼びます。

従来のチップは、直径300mmのウェハーを切断して数百の小さなチップに形成するが、Cerebrasはウェハー全体をそのまま1つのチップとして使用する。最新のWSE-3は4兆個のトランジスタ、90万個のAIコアを搭載し、各コアには48KBのローカルSRAMが備わっているため、チップ全体のオンチップSRAMは44GBに達し、21PB/秒のオンチップメモリ帯域幅（on‑chip memory bandwidth）と214PB/秒のネットワーク帯域幅（fabric bandwidth）を提供する。これは従来のHBM帯域幅の数千倍である。

ウェハレベルチップ

Cerebras WSEのメモリ帯域幅は、NVIDIA B200パッケージチップの2625倍であり、大規模モデル推論シナリオにおけるメモリ帯域幅のボトルネックを打破しました。

Cerebrasのアーキテクチャでは、モデルの重みはSRAM上には存在せず、外部メモリMemoryXに保存され、層ごとに大規模チップへ転送されます。これは、ニューラルネットワークモデルの重みの保存と計算ユニットを分離することで実現されています。

すべてのモデル重みは、メモリ拡張モジュールMemoryXに外部保存され、ネットワークの各層で必要な重みは、必要に応じて層ごとにCS-3システムへ転送されます。重みはMEMORY XのDRAMおよびフラッシュメモリに保存され、最大帯域幅でCS-3システムへ転送されます。これらの重みはCS-3システムには保存されず、一時キャッシュさえも残りません。CS-3はコアの低レベルデータフロー機構によって演算を実行します。

Cerebrasはワーファレベルのアーキテクチャにより、メモリ帯域幅に制約されるLLM推論において圧倒的な優位性を発揮する。トークンごとの生成時に、重みは層ごとに外部のMemoryXからCS-3へストリーミングされ、異なるモデルを実行した場合のトークン生成速度はNVIDIA B200の1.5～5倍である。

ウェハレベルチップ

NVIDIA DGX B200 GPU と Cerebras CS-3 チップによる、異なる大規模モデルのトークン生成速度比較

その主な利点は、CS-3の44GBオンチップSRAMが21 PB/s（B200の2625倍）の超高帯域幅と214 Pb/sのインターコネクトを提供し、重みのストリーミングをHBMインターフェースの制約から解放する点です。そのため、TTFT（Time To First Token、リクエスト送信からモデルが最初のトークンを返すまでの時間）、長文コンテキスト、エージェントワークロードにおいて特に優れた性能を発揮します。

重みはMemoryXに外部配置され、必要に応じて層ごとにロードされ、オンチップキャッシュには保存されませんが、CS-3はコアデータフロー機構によりSRAM上でフルFP16精度の損失なしの演算を実現します。線形な性能スケーリングにより、複数ユーザーによる並列推論時にも驚異的な総スループットを発揮します。

帯域幅だけでなく、消費電力の利点もあります。最近、中際旭創の劉聖会長の講演では、顧客が光モジュールに求める消費電力は1 pJ/bitである一方、現在は10 pJ/bitであると述べられました。Cerebrasチップでは、インターコネクトの消費電力は0.15 pJ/bitであり、現在のGPUのインターコネクトの消費電力は10 pJ/bitです。

ウェハレベルチップ

Cerebras相互接続とGPU相互接続アーキテクチャの帯域幅と電力消費の比較

したがって、Cerebrasのウェハレベル大チップアーキテクチャがAI推論、さらにはトレーニングの主流となる場合、従来の光モジュールおよびCPO（共パッケージ光学）の出荷量に顕著な抑制と構造的変化をもたらす可能性がある。その核心ロジックは、光モジュールとCPOへの高い需要が、GPUクラスタにおける「チップ間接続」と「ノード間接続」の帯域幅ボトルネックを解決するために必要であるのに対し、Cerebrasのアーキテクチャは「分散型接続の排除」によってこの問題を解決している点にある。

直感に反する：ウェハレベル大チップの「本物と偽物」の致命的欠陥

チップの核心は常にトレードオフにあります。CerebrasはオンチップSRAMの極限的な帯域幅を実現する一方で、いくつかの問題も引き起こしています。

良率が低い？

逆に、単一のAIコアのサイズを0.05平方ミリメートル（H100の単一演算コアサイズの1％）に縮小したため、生産率はむしろ向上しました。オンチップルーティングにより、不具合のあるコアを無効化または回避できるため、従来のマルチコアプロセッサと比較して、欠陥耐性が100倍向上しました。実際にはチップ全体に100万個のAIコアが搭載されていますが、生産率を考慮して、公表されているのは90万個のAIコアです。

推論は得意だが、訓練は苦手？

Cerebrasが設立されて数年以内の間、トレーニングが主流課題であったため、同社は常にトレーニングに多くの取り組みを行ってきたが、推論需要が急増した後、その推論における優位性がより明確に認識された。

実際、簡素化された分散計算は、コードの複雑さの削減や通信オーバーヘッドの削減といった利点ももたらします。

4000台のGPUで1750億パラメータのモデルを訓練するには、通常約2万行の分散訓練コードが必要です。

Cerebrasは565行のコードで同等のトレーニングを実現しました——モデル全体をワーファ上にインストールでき、データ並列の複雑さを扱う必要がありません。

SRAMスケーリングは終焉を迎え、コアな優位性が物理的限界に直面している。

第3世代製品はTSMCの5nmプロセスを採用しており、SRAM容量はTSMCの7nmプロセスを用いた第2世代製品と比較してわずか10%増加にとどまっている。5nm以降、SRAMユニットの面積はプロセスの進歩に伴いほとんど縮小しなくなっている。

これにより、Cerebrasは過去のようにTSMCのプロセスをアップグレード（5nmから3nmへ）することで、そのコア優位性（SRAM容量）を大幅に拡大できなくなりました。

ウェハサイズ、放熱能力、製造コストの制約により、オンチップSRAMなどのメモリリソースは計算コアと線形に比例して拡張できず、リソースのバランスにボトルネックが生じています。これはその進化の道をほぼ閉ざしています。

ウェハレベルチップ

Cerebras 第3世代製品の技術仕様

放熱、製造プロセス、エコシステムの三重の地獄。

ワハ全体に熱が集中し、熱流密度が高いため、カスタムデータセンターと専用液冷システムが必要です。また、エコシステムの汎用性が低いため、顧客はカスタムソフトウェアスタックに適応する必要があり、既存のCUDAなどの汎用プログラミングフレームワークとの互換性が弱く、ソフトウェアの移植・適合にかかるコストが高くなります。

外部帯域幅が低く、拡張の「孤島」となっている。

ウェハー級物理設計の制約により、WSEのエッジから引き出せるI/Oピン数は極めて限られており、そのI/O帯域幅は150GB/sに過ぎない。これは、NVIDIAのNVLinkがしばしば1.8TB/sの双方向帯域幅を有するのと比較すると、亀のように遅い。これは、WSEが外部へ高速に拡張することが極めて困難であることを意味する。CerebrasのSwarmXインターコネクトは複数システムの組み合わせにはそれなりの性能を発揮するが、多チップ間の高速インターコネクトを必要とする超大規模モデルにおいて、極めて低いチップ外帯域幅は構造的な物理的制約となる。

路線争い：大手企業の自社開発、Cerebrasのウィンドウ期間はあとどれほど残っているのか？

大手企業が「推論に更高の帯域幅と更低の遅延が必要」という課題を解決する方法は、ウェーハスケールだけではない。彼らは三つの並行する道筋を通じて、スタートアップの技術的優位性を包囲している。

① 自社開発 ASICチップ

Google TPU v8は、トレーニング専用と推論専用の2つのバージョンに分離された；AWS Trainium 4が開発中です；Microsoft MaiaはAzure内で使用されており、TSMCの3nmプロセスで構築され、ネイティブなFP8/FP4テンソルコア、再設計されたメモリシステム、216GBのHBM3e、272MBのオンチップSRAMを搭載しています；さらにAnthropicさえも、独自の推論チップの評価を開始しています。

この経路の発生確率は非常に高く、2028年のTAM（総到達市場）において、サードパーティのインファレンス調達が10%から25%圧縮される結果となる。

② 標準パッケージングルートのプロセスの汎用化

これはCerebrasに対する最も直接的な次元削減の打撃である。

TSMCのSoW（System-on-Wafer）は既に顧客に広く提供されており、CoWoS 9.5xインタポーザーは2027年にリリースされる予定です。

これらの製品が行うこと——ウェハレベルで複数のダイをステッチングすること——は本質的に、Cerebrasの物理プロセスを汎用化し、一般化することである。

NVIDIAのVera Rubinは2026年後半にこのエコシステムに参入します。

Cerebrasが自社で開発したクロス・レチクル・ステッチングは独占技術だが、その独占期間は最大で2〜3年であり、2027〜2028年以降、その技術的障壁はTSMCの先進パッケージングによって薄められる。

③ 光インターコネクト／光計算の突破

電子チップの相互接続とメモリーワールドは限界に達しており、光子の高帯域幅、低遅延、ゼロクロストークが最終的な解決策である。

ルメンタムを代表とする光学路線が台頭しています。ウェーハスケールの最大の利点はオンチップ計算ですが、モデルは必然的により巨大化するため、ウェーハスケール以上の高速インターコネクトが必須となります。

CPO（共封裝光學）と光学インターフェースの成熟に伴い、今後、光I/Oが直接WSEウェハに導入され、電気インターフェースの制約を打破する可能性が極めて高い。また、NVIDIAはGroqなどの特定のアーキテクチャ優位を持つLPUを買収し、光インターフェースと組み合わせて、既存のNVスーパーノードソフトウェアと互換性のあるウェハレベルシステムを開発する可能性がある。

崖っぷちでの駆け抜け：Cerebrasのビジネスと納品

Cerebrasは、巨額の注文に追われて崖っぷちの急激な駆け引きに直面しています。

OpenAIなどの大手顧客との取引により、Cerebrasはチップ企業から新規クラウドサービスプロバイダーへと転換を余儀なくされた。同社はもはやハードウェアの販売にとどまらず、短期間で膨大なデータセンターの電力とインフラを確保・構築する必要がある。

契約の要件により、Cerebrasは2026年から2028年まで毎年250MWのデータセンター容量を納品する必要があります。しかし、ウェハレベルシステムはデータセンターの要件が非常に厳しく、従来の空冷IDCには直接設置できません。現在、Cerebrasはデータセンター容量の準備が契約要件に比べて明確に遅れています。

チップの量産から工場建設、電力承認から冷却システムの導入まで、これは資本集約的で長期にわたる泥沼である。

エピローグ：左か、右か？

元の命題に戻ると、推論算力の転換点が到来した今、算力アーキテクチャの核心は常に選択と犠牲にある。

絶対的な正誤はなく、最も重要な負荷下での相対的な最適解があるだけです。負荷はすでに変化しています。

Cerebrasは左側に選択し、極限の物理最適化を実現し、一枚のワーファ全体と膨大なSRAMを用いて単一タスクにおける極限の低遅延を実現しました。これは最初のトークン遅延に極めて敏感なシナリオにおいて無敵です。

NVIDIAは汎用性を維持し、HBM＋NVLink＋大規模クラスタスループットで多様な負荷に対応し、変化に柔軟に対処しました。

風雲変化し、先は不透明。このような技術とビジネスの二重の不確実性こそが、破壊の可能性を生み出している。AGIへの計算力の激流の中で、今ここで結論を出すにはまだ早い——不確実だからこそ、機会がある。

本文は微信公众号「大蒜粒機研所」より、著者：霹靂遊俠