需要がGPUへの注目を上回り、CPUがAI時代の新たなボトルネックに

AIが急成長したこの数年間、業界はほぼ「計算能力が上限を決定し、GPUが計算能力の核心である」という論理に支配されてきた。

しかし、2026年に入ると、このロジックは変化し始めた：モデル推論はもはや唯一のボトルネックではなく、システムパフォーマンスは実行とスケジューリング能力にますます依存するようになっている。GPUは依然として重要だが、AIが「実際に動くかどうか」を左右する鍵は、長く見過ごされてきたCPUへと徐々に移りつつある。

米国時間4月9日、グーグルとインテルは、このボトルネックを解決するために、世界中のAIデータセンターでインテルの「Xeonプロセッサ」を大規模に導入するための複数年にわたる契約を締結した。インテルのCEO、陳立武は、AIはシステム全体で動作しており、CPUとIPUがパフォーマンス、効率、柔軟性の鍵であると明言した。言い換えれば、過去2年間「脇役」とされてきたCPUが、AIの拡張を妨げている「首輪」になっているのだ。

Google

インテルのCEO、チェン・リーウーはソーシャルメディアで、インテルはグーグルと協力を深化させ、従来のCPUからAIインフラ（IPUなど）へ拡大し、AIおよびクラウドコンピューティング能力の推進を共同で進めていると述べた。

CPUはもはや受動的な補助コンポーネントではなく、AIインフラにおける重要な変数の一つとなっています。

01 「静かなる」供給危機

皆がGPUの納期に注目している中、CPU市場の緊張感はすでに最高潮に達している。

複数のITディストリビューターの最新レポートによると、2025年第4四半期にはサーバーCPUの平均販売価格が約30%上昇しました。このような上昇は、比較的成熟したCPU市場では非常に稀です。

AMDデータセンター担当責任者であるフォレスト・ノロッドは、過去3四半期にわたりCPU需要の増加が予想をはるかに上回ったと明かした。現在、AMDの納期は元々の8週間から10週間以上に延長されており、一部のモデルでは最大6ヶ月の遅延が発生している。

この不足は「二次効果」によって引き起こされたリソースの急増によるものである。業界関係者によると、TSMCの3nm生産ラインが極めて混雑しているため、CPU向けに割り当てられていたウエハ生産能力が、利益率の高いGPU注文に次々と奪われている。その結果、皮肉な状況が生じている：AIラボは十分なGPUを手に入れたが、これらのGPUを「駆動」するための最高級CPUを市場で十分に購入できない状況となっている。

このCPU購入ブームには、エロン・マスクも含まれています。

インテルのCEO、陳立武はソーシャルメディア上で、マスクがテキサス州の「Terafab」プロジェクト向けにカスタムチップの設計および製造をインテルに委託したことを確認した。この大規模なプロジェクトは、xAI、SpaceX、およびテスラに統一された計算基盤を提供することを目的としている。

マスクがインテルを信頼する大きな理由は、インテルが地上のデータセンターから宇宙軌道上の計算まで、あらゆるレベルに自社技術を組み込もうとしているからである。

Google

これはインテルにとって確かに強力な後押しとなる。業界アナリストの中には、2026年までにAMDがサーバーCPU市場での収益シェアをインテルを上回ると予測する者もいるが、インテルがx86エコシステムにおいて築き上げた深い慣性と製造能力は、マスクのような大手顧客にとって無視できないアドバンテージである。

この業界を越えた深層的な統合により、CPU市場の競争は単なるパラメータの競争から、エコシステムとサプライチェーンの安定性を巡る競争へと昇華しています。

02 なぜCPUが「ボトルネック」になるのか？

CPUが突然ボトルネックとなったのは、エージェント時代においてその負担する役割が本質的に変化したからである。

従来のチャットボットモードでは、CPUがスケジューリングとデータ処理を担当し、GPUが主要な推論計算を担います。計算集約型の処理がGPU側に集中しているため、全体の遅延は通常GPUによって支配され、CPUは性能ボトルネックになることはめったにありません。

しかし、エージェントのワークロードはまったく異なります。エージェントは複数ステップの推論を実行し、APIを呼び出し、データベースを読み書きし、複雑なビジネスフローをオーケストレートして、中間結果を統合して最終出力を作成する必要があります。検索、API呼び出し、コード実行、ファイルI/O、結果の統合などのタスクの大部分はCPUとホストシステム側で処理されます。GPUはトークン生成（つまり「思考」）を担当し、CPUは「思考」の結果を具体的な行動に変換します。

ジョージア工科大学の研究者らは、2025年11月に発表した論文『A CPU-Centric Perspective on Agentic AI』において、エージェントワークロードにおける遅延分布を定量化した。研究によると、CPU側のツール処理に要する時間が総遅延の50％から90.6％を占めている。一部のシナリオでは、GPUは次のバッチの処理を準備できているにもかかわらず、CPUはツール呼び出しの返却を待っている状態である。

もう一つの重要な要因は、コンテキストウィンドウの急速な拡大である。2024年には、主要なモデルの多くが128K〜200Kトークンをサポートしていたが、2025年にはGemini 2.5 Pro、GPT-4.1、Llama 4 Maverickなどのモデルが100万トークン以上をサポートし始めた。KVキャッシュ（Key-Value Cache、Transformersモデルの推論プロセスを高速化するために使用）はトークン数に比例して増加し、100万トークンでは約200GBに達する。これは、単一のH100の80GBメモリ容量をはるかに上回る。

このような問題に対する解決策の一つは、KVキャッシュの一部をCPUメモリにオフロードすることです。これにより、CPUはオーケストレーションやツール呼び出しを管理するだけでなく、GPUメモリに収まりきらないデータの保持も支援することになります。CPUメモリの容量、メモリ帯域幅、およびCPUとGPU間の接続速度が、システムパフォーマンスの鍵となります。

したがって、エージェント時代に適したCPUには、単一のコア規模の拡大ではなく、低遅延で一貫したメモリアクセス能力、およびより強力なシステムレベルの協調能力が求められます。

03 メーカーたちは何をしているのか？一部は市場を奪い合い、另一部はデザインを変更している。

この突然のCPU需要に直面して、大手企業各社の対応はまったく異なる。

インテルは従来のサーバーCPU市場のリーダーである。Mercury Researchのデータによると、2025年第4四半期において、インテルはサーバーCPU市場で60％のシェアを占め、AMDは24.3％、NVIDIAは6.2％をそれぞれ占めている。しかし、インテルは近年、新技術の追跡に努めており、今回のCPU需要の急増は、彼らにとって機会であると同時に試練でもある。

インテルの現在の戦略は二本柱である。一方では、グーグル这样的超大規模顧客と深く連携しながら、Xeonプロセッサの販売を継続し、他方ではSambaNovaと提携し、Xeonプロセッサと自社開発のRDUアクセラレータを組み合わせたソリューションを提供し、「GPUなしでもエージェント推論が可能」という強みをアピールしている。Xeon 6 Granite Rapidsと18Aプロセスのロードマップは、インテルが巻き返せるかどうかを左右する鍵となる。

AMDは今回のCPU需要の爆発における最大の受益者の一つである。2025年第4四半期、AMDのデータセンター収益は54億ドルとなり、前年同期比39%増加した。第5世代EPYC TurinはサーバーCPU収益の半分以上を占め、EPYCを搭載したクラウドインスタンスの導入は前年同期比50%以上増加した。AMDのサーバーCPU収益シェアは初めて40%を超えた。

AMDのCEO、スー・ツーフェン（リサ・スー）は、成長の理由を「エージェント」の発展に直接帰した——エージェントのワークロードがタスクを従来のCPUタスクに「還元」している。

2026年2月、AMDはMetaとの潜在的な取引を発表し、その価値は1,000億ドル以上で、MI450 GPUとVenice EPYC CPUを供給する予定である。

ただし、AMDはシステムレベルの協調においてまだ改善の余地があり、NVLink C2Cのような成熟した高速CPU-GPU相互接続機能を欠いています。エージェント（Agent）システムにおけるデータ交換と協調効率への要求が高まるにつれ、この部分の重要性は徐々に増しています。

NVIDIAのCPU設計の考え方には、IntelやAMDとは完全に異なる点があります。

NVIDIA Grace CPUは72コアのみであるのに対し、AMD EPYCおよびIntel Xeonは通常128コアです。NVIDIA AIインフラストラクチャ責任者であるディオン・ハリスは、「スケールアウト企業の場合、各CPUのコア数を最大化することで、コアあたりのドルコストを削減できます。これはビジネスモデルです。」と説明しています。

言い換えれば、AI計算能力のシステムにおいて、CPUの役割は汎用計算の主力ではなく、GPUを支援する「スケジューリング中枢」となりました。CPUが追いつかない場合、高価なGPUが待機を余儀なくされ、全体の効率が逆に低下します。

したがって、NVIDIAはCPUとGPU間の効率的な協調を設計の優先事項としています。たとえば、NVLink C2Cインターコネクトを用いてCPUとGPU間の帯域幅を約1.8TB/sまで向上させ、従来のPCIeを大幅に上回り、CPUがGPUメモリに直接アクセスできるようになり、KVキャッシュ管理が大幅に簡素化されました。

現在、NVIDIAはVera CPUを独立した製品として販売しています。CoreWeaveが最初の顧客です。Metaとの取引はさらに顕著で、これはGPUとペアリングせずにCPUを大規模に独立して導入する初の「純Graceデプロイ」です。

研究機関Creative Strategiesのチーフアナリスト、ベン・バジャリンは、高強度のシステム協働において、CPUの処理能力はアクセラレーターのイテレーション速度に一致しなければならないと指摘した。データチャネルにたとえ1％の遅延が生じたとしても、AIクラスターの経済的効率は大きく損なわれる。この極限のシステム効率への追求は、すべての大手企業にCPUのパフォーマンス指標の見直しを迫っている。

Constellation Researchの副社長兼チーフアナリストであるホルガー・ミュラーは、AIワークロードがエージェント駆動アーキテクチャに移行するにつれて、CPUの地位がますます核心的になっていると述べた。彼は、「エージェントの世界では、エージェントがAPIやさまざまなビジネスアプリケーションを呼び出す必要があり、これらのタスクはCPUに最適である」と指摘した。

彼はさらに、「現在、GPUとCPUのどちらが推論タスクに適しているかについては明確な結論が出ていない。GPUはモデルのトレーニングで優位性を有し、TPUのようなカスタムASICもそれぞれの強みを持っている。しかし、一つ明確な点は、グーグルがハイブリッドプロセッサアーキテクチャを採用する必要があるということだ。したがって、グーグルがインテルと提携することを選んだのは合理的である。」

04 まとめ：エージェント時代、計算能力の天秤が再び均衡に戻る

最新の産業観察において、注目すべきデータがあります。アマゾンAWSとOpenAIの380億ドルに及ぶ提携契約において、公式にも「数千万個のCPU」の拡張規模が明記されています。

過去数年間、業界の注目は常に「数十万のGPU」に集中していた。しかし、OpenAIなどの先進的なラボが、CPU規模を重要な計画変数として積極的に取り入れることで、エージェントワークロードの拡張は大規模なCPUインフラに基づく必要があるという明確なシグナルを発信した。

米国銀行は、2030年までに世界のCPU市場が現在の270億ドルから600億ドルに倍増すると予測しています。この増加分のほぼすべてはAIによってもたらされます。

私たちは、新しいインフラの拡張を目の当たりにしています。大手企業はGPUをただ増設するだけでなく、AIエージェントの実行を支えるための「CPUスケジューリングインフラ」全体を同時に拡張しています。

インテルとグーグルの連携、そしてマスクによるカスタムチップへの多額の投資は、一つの事実を示している：AI競争の勝敗を分けるポイントが前倒しになっている。計算能力が希少でなくなった今、システムレベルの「ボトルネック」を最も早く解決できる者が、この兆円規模のゲームで最後まで笑えるのだ。

特別寄稿：金鹿も本記事に貢献しました。

本文は微信公众号「騰訊科技」より、著者：李海倫、編集：徐青陽

需要がGPUへの注目を上回り、CPUがAI時代の新たなボトルネックに

01

「静かなる」供給危機

02

なぜCPUが「ボトルネック」になるのか？

03

メーカーたちは何をしているのか？ 一部は市場を奪い合い、另一部はデザインを変更している。

04

まとめ：エージェント時代、計算能力の天秤が再び均衡に戻る

メーカーたちは何をしているのか？一部は市場を奪い合い、另一部はデザインを変更している。