AI 計算供應鏈瓶頸從 GPU 轉向電力與冷卻

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
恐懼與貪婪指數顯示,由於 AI 計算瓶頸已擴展至電力、晶片、存儲、設備和材料,市場焦慮情緒正在上升。高帶寬內存和光學互連供應緊張,電力/冷卻基礎設施滯後。主要銀行警告電網和製造業面臨壓力。隨著基礎設施成本上升,值得關注的山寨幣可能作出反應。這一轉變遵循 GPU → HBM → 光學 → 電力/冷卻的順序。

作者:qinbafrank

在2月的《這場資本開支的戰爭意味著什麼?》中曾討論過,算力產業鏈上的關鍵環節——如晶片、封裝測試、存儲、光模組等——若其產能不易快速擴張,或具有極高的護城河,便能享受龐大資本開支的紅利;

效率仍有很大的優化空間:推理端的知識蒸餾、量化、MoE、專用晶片、液冷、核聚變(遠期)等技術有可能將單位算力的能耗和成本再降低 10–100 倍。應在這些環節中尋找機會。

近期,多家投行如摩根士丹利、摩根大通、美銀、高盛、瑞銀、花旗、伯恩斯坦、HSBC 發布了關於 AI/半導體/電力/存儲的相關更新報告,AI 硬體的瓶頸已從「GPU 供應」單一維度擴散至電力、晶片、存儲、設備、材料五個維度的集體緊張。

The demand for AI has exceeded all predictive ranges of traditional power planning, semiconductor equipment capacity, storage price models, and robot installation assumptions.

摩根士丹利的全球主題研究回顧指出,全球每週大語言模型的 token 消耗量在 3 個月內從 6.4 萬億個飆升至 22.7 萬億個,增幅達 2.5 倍;美國 2025-28 年數據中心電力缺口為 55 吉瓦;摩根大通對數據中心高性能計算項目債的首次覆蓋直接提出「未來 5 年 122 吉瓦待融資」的缺口數字,美國 5 年電力規劃從 101 吉瓦飆升至 230 吉瓦,44% 的新項目並網等待時間超過 4 年;美銀在給 Alphabet 的最新目標價報告中,將 2026 年資本支出直接上修至 1815 億美元,同比翻倍,自由現金流同比下降 62%。這三組數據並非來自同一套框架,而是三家獨立機構在不同研究路徑上的獨立畫像。

半導體產業鏈(尤其是AI算力領域)的瓶頸演變,正是從「計算(GPU)→存儲(HBM等)→光互連→電力/液冷」這一清晰的順序遞進的。這是2025-2026年行業共識,隨著AI訓練/推理叢集從單機櫃(幾十張GPU)向超大規模(數千至數十萬張GPU)擴展,每解決一個環節的瓶頸,下一個物理/供應鏈限制就會立即暴露出來,形成「Leontief式」互補約束(缺一個都無法出貨)。

光模組

有必要了解這種演變為何出現、當前的狀況以及背後的物理/工程原因:

1. 第一階段瓶頸:GPU 計算(2022-2024 年主導)核心限制:

高端 GPU(如 NVIDIA Hopper H100 → Blackwell B200 → Rubin)本身的晶圓產能 + 先進封裝。

為何成為瓶頸:AI 大模型需要海量並行計算,TSMC 4nm/3nm/2nm 邏輯工藝 + CoWoS(2.5D/3D 封裝)的產能一度成為最大瓶頸。即使前端晶圓足夠,若後端無法及時將邏輯晶片與 HBM 堆疊封裝,整張 GPU 就無法生產出來。

情況緩解:台積電大力擴充 CoWoS(2024–2025 年產能翻倍),NVIDIA Blackwell 已大規模出貨。但這僅是「計算」環節解鎖,隨即暴露出新問題。

2. 第二階段瓶頸:存儲(HBM 高帶寬內存,2024-2025 年成為最緊缺)

核心限制:HBM3 / HBM3e / HBM4 產能。

為何記憶體成為瓶頸:GPU 計算能力提升了,但模型參數呈爆炸式增長(萬億甚至十萬億參數),資料搬運(記憶體頻寬)成了「記憶體牆」。HBM 每秒可傳輸數 TB 資料,比傳統 DDR 記憶體快 20 倍以上。由於 HBM 緊鄰邏輯晶片,資料無需長距離傳輸,因此節省了能耗。

一張 B200 GPU 需要 192GB+ HBM3e,單機櫃(NVL72)的 HBM 總量已達 30-40TB,且頻寬需求遠超傳統 DRAM。

供應鏈現狀:目前僅 SK 海力士、三星、美光三家能規模化生產 HBM,工藝複雜(矽通孔 TSV + 堆疊),2025 年產量已全部售罄,2026 年仍供不應求,價格同比暴漲 246%。即使 GPU 芯片已準備就緒,若無 HBM 則無法組裝交付,導致整個 AI 集群部署延遲。

結果:存儲已從「商品」轉變為戰略級卡脖子環節,資本開支中存儲的占比可達 30%。

3. 第三階段瓶頸:光互連(2025-2026 年正在切換)

核心限制:銅纜(NVLink/NVSwitch)在頻寬、距離、功耗、重量上的物理極限。

為何必然轉向光纖:單機櫃內(72張GPU)尚可依賴銅纜,但當擴展至多機櫃乃至數千張GPU互聯時,銅纜衰減嚴重(在1.8TB/s頻寬下有效距離<1米)、重量暴增(NVL72機櫃銅纜超過5,000根,總重1.36噸)、功耗高(以可插拔光模組取代銅纜將額外耗電2萬瓦)。訊號完整性、延遲與散熱均無法支撐更大規模的叢集。

解決方案:轉向光互連(CPO 共封裝光學 + 硅光子技術)。將光引擎直接封裝在 GPU/ASIC 旁邊,使用光纖實現 Scale-Out,帶寬密度更高、每比特功耗更低、距離更遠。

光模組

NVIDIA 在 2026 年 GTC 大力押注,已投資光學公司,800G/1.6T 光模組需求爆發式增長。lite、Broadcom、Coherent、Ayar Labs 等成為新贏家。

當前進度:銅纜已達極限,光互連正從「可選」轉變為「必選」,並突破 AI 數據中心的性能天花板。

4. 第四階段瓶頸(當前最前沿):電力 + 液冷(2026年起成為最終物理約束)核心限制:功耗牆 + 散熱牆 + 電網接入。

為何是終極瓶頸:每張 GPU 從 300W → 700-1200W,單機櫃從 10-20kW(CPU 時代)飆升至 120-200kW+ 甚至更高。傳統風冷的物理上限僅為 20-50kW,噪音、風量與能耗均不可接受。

電力側:數據中心需 GW 級供電,電網並網排隊可達數年,變壓器、固態變壓器等設備交付週期延長至 100 週。微軟 CEO 曾直言「有 GPU 但沒電插」。

液冷側:必須切換至 Direct-to-Chip(直接晶片液冷)或浸沒式液冷,並結合微流控、冷板等技術。台積電已在 CoWoS 平台演示矽基液冷,支援 >2.6kW TDP。Vertiv(VRT)等液冷/熱管理廠商成為基礎設施的新核心。

連鎖反應:PUE(電能使用效率)要求低於1.2,餘熱回收、核電/新型能源並網都成為新話題。即使前面所有環節都解決,若沒有電力和冷卻,機櫃也無法上架運行。

光模組

AI算力產業鏈瓶頸轉移的本質邏輯:AI算力不是「單點」問題,而是系統級列昂惕夫生產函數——GPU、HBM、互連、電力、冷卻必須按最低短板匹配。超大規模雲服務商(谷歌、微軟、Meta等)每解決一個,便立即將資本與創新推向下一個環節。

目前(2026年)正處於「光互連加速落地 + 電力/液冷大規模商用」的切換期,未來可能還會出現新瓶頸(如雷射器、光纖材料或電網變壓器),但這個「計算→儲存→光→電/冷」的鏈條已成行業公認路徑。

這也解釋了為何投資邏輯從 NVIDIA/TSMC 轉向 HBM 三巨頭(SK 海力士等)、光學廠商(Lumentum、Coherent)、液冷/電力基礎設施(Vertiv、相關電源公司)。

每一次瓶頸轉移,都在重塑整個半導體+數據中心產業鏈的價值分配。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露