AI 計算供應鏈瓶頸從 GPU 轉向電力與冷卻

作者：qinbafrank

在2月的《這場資本開支的戰爭意味著什麼？》中曾討論過，算力產業鏈上的關鍵環節——如晶片、封裝測試、存儲、光模組等——若其產能不易快速擴張，或具有極高的護城河，便能享受龐大資本開支的紅利；

效率仍有很大的優化空間：推理端的知識蒸餾、量化、MoE、專用晶片、液冷、核聚變（遠期）等技術有可能將單位算力的能耗和成本再降低 10–100 倍。應在這些環節中尋找機會。

近期，多家投行如摩根士丹利、摩根大通、美銀、高盛、瑞銀、花旗、伯恩斯坦、HSBC 發布了關於 AI/半導體/電力/存儲的相關更新報告，AI 硬體的瓶頸已從「GPU 供應」單一維度擴散至電力、晶片、存儲、設備、材料五個維度的集體緊張。

The demand for AI has exceeded all predictive ranges of traditional power planning, semiconductor equipment capacity, storage price models, and robot installation assumptions.

摩根士丹利的全球主題研究回顧指出，全球每週大語言模型的 token 消耗量在 3 個月內從 6.4 萬億個飆升至 22.7 萬億個，增幅達 2.5 倍；美國 2025-28 年數據中心電力缺口為 55 吉瓦；摩根大通對數據中心高性能計算項目債的首次覆蓋直接提出「未來 5 年 122 吉瓦待融資」的缺口數字，美國 5 年電力規劃從 101 吉瓦飆升至 230 吉瓦，44% 的新項目並網等待時間超過 4 年；美銀在給 Alphabet 的最新目標價報告中，將 2026 年資本支出直接上修至 1815 億美元，同比翻倍，自由現金流同比下降 62%。這三組數據並非來自同一套框架，而是三家獨立機構在不同研究路徑上的獨立畫像。

半導體產業鏈（尤其是AI算力領域）的瓶頸演變，正是從「計算（GPU）→存儲（HBM等）→光互連→電力/液冷」這一清晰的順序遞進的。這是2025-2026年行業共識，隨著AI訓練/推理叢集從單機櫃（幾十張GPU）向超大規模（數千至數十萬張GPU）擴展，每解決一個環節的瓶頸，下一個物理/供應鏈限制就會立即暴露出來，形成「Leontief式」互補約束（缺一個都無法出貨）。

光模組

有必要了解這種演變為何出現、當前的狀況以及背後的物理／工程原因：

1. 第一階段瓶頸：GPU 計算（2022-2024 年主導）核心限制：

高端 GPU（如 NVIDIA Hopper H100 → Blackwell B200 → Rubin）本身的晶圓產能 + 先進封裝。

為何成為瓶頸：AI 大模型需要海量並行計算，TSMC 4nm/3nm/2nm 邏輯工藝 + CoWoS（2.5D/3D 封裝）的產能一度成為最大瓶頸。即使前端晶圓足夠，若後端無法及時將邏輯晶片與 HBM 堆疊封裝，整張 GPU 就無法生產出來。

情況緩解：台積電大力擴充 CoWoS（2024–2025 年產能翻倍），NVIDIA Blackwell 已大規模出貨。但這僅是「計算」環節解鎖，隨即暴露出新問題。

2. 第二階段瓶頸：存儲（HBM 高帶寬內存，2024-2025 年成為最緊缺）

核心限制：HBM3 / HBM3e / HBM4 產能。

為何記憶體成為瓶頸：GPU 計算能力提升了，但模型參數呈爆炸式增長（萬億甚至十萬億參數），資料搬運（記憶體頻寬）成了「記憶體牆」。HBM 每秒可傳輸數 TB 資料，比傳統 DDR 記憶體快 20 倍以上。由於 HBM 緊鄰邏輯晶片，資料無需長距離傳輸，因此節省了能耗。

一張 B200 GPU 需要 192GB+ HBM3e，單機櫃（NVL72）的 HBM 總量已達 30-40TB，且頻寬需求遠超傳統 DRAM。

供應鏈現狀：目前僅 SK 海力士、三星、美光三家能規模化生產 HBM，工藝複雜（矽通孔 TSV + 堆疊），2025 年產量已全部售罄，2026 年仍供不應求，價格同比暴漲 246%。即使 GPU 芯片已準備就緒，若無 HBM 則無法組裝交付，導致整個 AI 集群部署延遲。

結果：存儲已從「商品」轉變為戰略級卡脖子環節，資本開支中存儲的占比可達 30%。

3. 第三階段瓶頸：光互連（2025-2026 年正在切換）

核心限制：銅纜（NVLink/NVSwitch）在頻寬、距離、功耗、重量上的物理極限。

為何必然轉向光纖：單機櫃內（72張GPU）尚可依賴銅纜，但當擴展至多機櫃乃至數千張GPU互聯時，銅纜衰減嚴重（在1.8TB/s頻寬下有效距離<1米）、重量暴增（NVL72機櫃銅纜超過5,000根，總重1.36噸）、功耗高（以可插拔光模組取代銅纜將額外耗電2萬瓦）。訊號完整性、延遲與散熱均無法支撐更大規模的叢集。

解決方案：轉向光互連（CPO 共封裝光學 + 硅光子技術）。將光引擎直接封裝在 GPU/ASIC 旁邊，使用光纖實現 Scale-Out，帶寬密度更高、每比特功耗更低、距離更遠。

光模組

NVIDIA 在 2026 年 GTC 大力押注，已投資光學公司，800G/1.6T 光模組需求爆發式增長。lite、Broadcom、Coherent、Ayar Labs 等成為新贏家。

當前進度：銅纜已達極限，光互連正從「可選」轉變為「必選」，並突破 AI 數據中心的性能天花板。

4. 第四階段瓶頸（當前最前沿）：電力 + 液冷（2026年起成為最終物理約束）核心限制：功耗牆 + 散熱牆 + 電網接入。

為何是終極瓶頸：每張 GPU 從 300W → 700-1200W，單機櫃從 10-20kW（CPU 時代）飆升至 120-200kW+ 甚至更高。傳統風冷的物理上限僅為 20-50kW，噪音、風量與能耗均不可接受。

電力側：數據中心需 GW 級供電，電網並網排隊可達數年，變壓器、固態變壓器等設備交付週期延長至 100 週。微軟 CEO 曾直言「有 GPU 但沒電插」。

液冷側：必須切換至 Direct-to-Chip（直接晶片液冷）或浸沒式液冷，並結合微流控、冷板等技術。台積電已在 CoWoS 平台演示矽基液冷，支援 >2.6kW TDP。Vertiv（VRT）等液冷／熱管理廠商成為基礎設施的新核心。

連鎖反應：PUE（電能使用效率）要求低於1.2，餘熱回收、核電/新型能源並網都成為新話題。即使前面所有環節都解決，若沒有電力和冷卻，機櫃也無法上架運行。

光模組

AI算力產業鏈瓶頸轉移的本質邏輯：AI算力不是「單點」問題，而是系統級列昂惕夫生產函數——GPU、HBM、互連、電力、冷卻必須按最低短板匹配。超大規模雲服務商（谷歌、微軟、Meta等）每解決一個，便立即將資本與創新推向下一個環節。

目前（2026年）正處於「光互連加速落地 + 電力/液冷大規模商用」的切換期，未來可能還會出現新瓶頸（如雷射器、光纖材料或電網變壓器），但這個「計算→儲存→光→電/冷」的鏈條已成行業公認路徑。

這也解釋了為何投資邏輯從 NVIDIA/TSMC 轉向 HBM 三巨頭（SK 海力士等）、光學廠商（Lumentum、Coherent）、液冷／電力基礎設施（Vertiv、相關電源公司）。

每一次瓶頸轉移，都在重塑整個半導體+數據中心產業鏈的價值分配。