在人工智能時代，CPU 因需求超過 GPU 專注而成為新瓶頸

在 AI 狂飆的這些年裡，行業幾乎被一條邏輯主導：算力決定上限，而 GPU 就是算力的核心。

不過，進入 2026 年，這套邏輯開始變化：模型推理不再是唯一瓶頸，系統性能越來越取決於執行與調度能力。GPU 依然重要，但決定 AI「能不能跑起來」的關鍵，正逐漸轉向長期被忽視的 CPU。

美國當地時間4月9日，谷歌與英特爾達成多年協議，在全球AI數據中心大規模部署英特爾的“Xeon至強處理器”，正是為了破解這個瓶頸。英特爾CEO陳立武直言，AI運行在整個系統上，CPU和IPU才是性能、效率和靈活性的關鍵。換句話說，過去兩年被當作“配角”的CPU，正在卡住AI擴展的“脖子”。

Google

Intel 執行長陳立武在社群媒體表示：Intel 正與 Google 深化合作，從傳統 CPU 擴展至 AI 基礎設施（如 IPU），共同推進 AI 與雲端計算能力建設。

CPU 不再只是一個被動的配套組件，而正成為 AI 基礎設施中的關鍵變量之一。

01 一場「悄無聲息」的供應危機

當大家都在盯著 GPU 的交貨週期時，CPU 市場的緊張氣氛已經悄然拉滿。

根據多家 IT 分銷商的最新報告，2025 年第四季度，伺服器 CPU 的平均售價上漲了約 30%。這種漲幅在相對成熟的 CPU 市場中非常罕見。

AMD 數據中心負責人福雷斯特·諾羅德（Forrest Norrod）透露，過去三個季度，CPU 需求的增長速度超乎想像。目前，AMD 的交付週期已從原來的八週延長至十週以上，部分型號甚至面臨長達六個月的延遲。

這種短缺主要由「次級效應」引發的資源擠兌所致。有業內人士表示，由於台積電的 3nm 生產線極為緊張，原本分配給 CPU 的晶圓產能，正不斷被利潤更高的 GPU 訂單擠佔。這導致了一個極具諷刺意味的局面：AI 實驗室擁有足夠的 GPU，卻發現市場上買不到足夠的頂級 CPU 來「帶動」這些顯卡。

在這輪 CPU 抢購潮中，還有埃隆·馬斯克（Elon Musk）。

英特爾首席執行官陳立武在社交平台上證實，馬斯克已委託英特爾為其在德克薩斯州的「Terafab」項目設計並製造定制芯片。這個龐大的項目旨在為 xAI、SpaceX 和特斯拉提供統一的計算底座。

馬斯克對英特爾的信任，很大程度上源於英特爾正試圖將自身嵌入從地面資料中心到太空軌道運算的每一個層面。

Google

對於英特爾來說，這無疑是一劑強心針。有行業分析師預測，AMD 在伺服器 CPU 市場的收入份額將於 2026 年超過英特爾，但英特爾在 x86 生態系統中的深厚慣性與製造能力，依然是馬斯克這類大客戶無法忽視的籌碼。

This deep cross-industry integration is elevating competition in the CPU market from mere parameter comparisons to a battle over ecosystems and supply chain stability.

02 為什麼 CPU 會成為「短板」？

CPU 突然成為瓶頸，核心在於它在智能體時代需要承擔的工作發生了根本性變化。

在傳統聊天機器人模式中，CPU 主要負責調度和數據處理，GPU 承擔核心推理計算。由於計算密集型環節集中在 GPU 側，整體延遲通常由 GPU 主導，CPU 很少成為性能瓶頸。

但智能體的工作負載完全不同。一個智能體需要執行多步推理、調用 API、讀寫資料庫、編排複雜業務流程，並將中間結果整合為最終輸出。搜尋、API 調用、代碼執行、檔案 I/O 和結果編排等任務，大部分落在 CPU 和主機系統端。GPU 負責 token 生成（即「思考」），而 CPU 負責將「思考」結果轉化為實際行動。

佐治亞理工學院學者在2025年11月發表的論文《以CPU為中心的智能體AI視角》（A CPU-Centric Perspective on Agentic AI）中，對智能體工作負載中的延遲分佈進行了量化分析。研究發現，CPU端工具處理所佔用的時間，佔總延遲的50%至90.6%。在某些場景下，GPU已準備好處理下一批任務，而CPU仍在等待工具調用返回。

另一個關鍵因素是上下文窗口的快速擴展。2024年，主流模型大多支援128K至200K token。進入2025年，Gemini 2.5 Pro、GPT-4.1、Llama 4 Maverick 等模型均開始支援100萬token以上。KV快取（Key-Value Cache，用於加速Transformers模型推理過程）隨token數量線性增長，在100萬token時約為200GB，遠超單塊H100的80GB顯存容量。

解決此類問題的一種方法是將 KV 緩存部分卸載至 CPU 記憶體。這意味著 CPU 不僅要管理排程和工具呼叫，還要協助承載顯存無法容納的資料。CPU 記憶體容量、記憶體頻寬以及 CPU 與 GPU 之間的互連速度，因此成為系統效能的關鍵。

因此，適合智能體時代的 CPU，更需要低延遲、一致的內存訪問能力，以及更強的系統級協同能力，而不是單一的核心規模擴張。

03 廠商們都在做什麼？有人搶地盤，有人改設計

面對這場突然爆發的 CPU 需求，幾家大廠的打法完全不同。

英特爾是傳統伺服器CPU的領先者。根據Mercury Research的數據，2025年第四季度，英特爾在伺服器CPU市場仍佔60%的份額，AMD佔24.3%，英偉達佔6.2%。但這些年來，英特爾一直在追趕新技術，這次CPU需求的爆發對他們來說，既是機遇也是考驗。

Intel 目前的策略是雙管齊下。一方面繼續銷售 Xeon 處理器，與 Google 等超大規模客戶深度合作；另一方面與 SambaNova 合作，推出基於 Xeon 處理器與其自研 RDU 加速器的組合方案，主打「不用 GPU 也能運行智能體推理」的賣點。Xeon 6 Granite Rapids 與 18A 工藝的路線圖，將是檢驗 Intel 是否能逆轉局勢的關鍵。

AMD 則是此次 CPU 需求爆發中最大的受益者之一。2025 年第四季度，AMD 數據中心收入達 54 億美元，同比增長 39%。第五代 EPYC Turin 貢獻了伺服器 CPU 收入的一半以上，運行 EPYC 的雲實例部署同比增長超過 50%。AMD 的伺服器 CPU 收入份額首次突破 40%。

AMD 執行長蘇姿豐（Lisa Su）將增長原因直接歸因於「智能體」的發展——智能體工作負載將任務「推回」至傳統 CPU 任務上。

2026 年 2 月，AMD 還宣布了一項與 Meta 的潛在交易，價值超過 1000 億美元，供應 MI450 GPU 和 Venice EPYC CPU。

不過，AMD 在系統級協同方面仍有提升空間，缺乏類似 NVLink C2C 這樣成熟的高速 CPU-GPU 互連能力。隨著智能體（Agent）系統對數據交互與協同效率要求不斷提高，這一環節的重要性也在逐步上升。

NVIDIA 設計 CPU 的思路，與 Intel 和 AMD 完全不同。

NVIDIA Grace CPU 僅有 72 個核心，而 AMD EPYC 和英特爾至強通常為 128 個。NVIDIA AI 基礎設施負責人迪昂·哈里斯（Dion Harris）解釋道：「如果你是超大規模企業，你希望最大化每個 CPU 的核心數量，這基本上會降低每核心的美元成本。因此，這是一種商業模式。」

換句話說，在 AI 算力體系中，CPU 的角色已不再是通用計算的主力，而是為 GPU 服務的「調度中樞」。如果 CPU 跟不上，昂貴的 GPU 就會被迫等待，整體效率反而下降。

因此，英偉達在設計上優先確保 CPU 與 GPU 之間的高效協同。例如透過 NVLink C2C 互連，將 CPU 與 GPU 之間的頻寬提升至約 1.8TB/s，遠高於傳統 PCIe，CPU 可直接存取 GPU 記憶體，KV 緩存管理一下子簡單了很多。

目前，英偉達已將 Vera CPU 作為獨立產品銷售。CoreWeave 是第一個客戶。與 Meta 的交易更為誇張，這是其首次大規模「純 Grace 部署」，即 CPU 在沒有 GPU 配對的情況下大規模獨立部署。

研究機構 Creative Strategies 首席分析師本·巴賈林（Ben Bajarin）指出，在高強度的系統協作中，CPU 的處理能力必須能夠匹配加速器的迭代速度。如果數據通道出現哪怕百分之一的延遲，整個 AI 集群的經濟效益就會大打折扣。這種對極致系統效率的追求，正迫使所有大廠重新審視 CPU 的性能指標。

Constellation Research 副總裁兼首席分析師霍爾格·穆勒（Holger Mueller）表示，隨著 AI 工作負載轉向代理驅動架構，CPU 的地位正變得愈發核心。他指出：「在代理世界中，代理需要調用 API 和各類業務應用程式，這些任務最適合由 CPU 來完成。」

他還補充道：「目前，關於 GPU 和 CPU 誰更適合處理推理任務，尚無定論。GPU 在模型訓練方面佔據優勢，而像 TPU 這樣的定制 ASIC 也有其專長。但有一點是明確的：谷歌需要採用混合處理器架構。因此，谷歌選擇與英特爾展開合作是合理的」。

04 結語：智能體時代，算力天平回擺

在最新的產業觀察中，有一個數據值得我們注意。在亞馬遜AWS與OpenAI高達380億美元的合作協議中，其官方也明確提到了「數千萬個CPU」的擴展規模。

在過去幾年，通常情況下，行業的關注焦點總是那「數十萬個 GPU」。然而，OpenAI 等前沿實驗室主動將 CPU 規模作為一個重要的規劃變量，向外界傳遞了一個清晰的信號：智能體工作負載的擴展，必須建立在龐大的 CPU 基礎設施之上。

美國銀行預測，到2030年，全球CPU市場規模有望從目前的270億美元翻倍至600億美元。這多出來的份額，幾乎全部將由AI驅動。

我們正見證一種全新的基礎設施開始擴張：大型企業不再僅僅堆疊 GPU，而是同步擴展一整層「CPU 調度基礎設施」，專為 AI 智能體提供運行支援。

英特爾與谷歌的聯手，以及馬斯克對定制晶片的重金投入，都在證明一個事實：AI競賽的制勝點正在前移。當算力不再稀缺，誰能最先解決系統級的“瓶頸”，誰才能在這場萬億級的遊戲中笑到最後。

*特約編譯金鹿對本文亦有貢獻。

本文來自微信公眾號「騰訊科技」，作者：李海倫，編輯：徐青陽