Mga bottleneck sa supply chain ng AI compute ay lumilipat mula sa GPU patungo sa kapangyarihan at pagpapalamig

May-akda: qinbafrank

Noong Pebrero, sa artikulong “Ano ang ibig sabihin ng labanan sa kapital expenditure?”, sininggit na ang mga mahahalagang bahagi ng chain ng computing power ay patuloy na nakakakuha ng pinakamalaking halaga: ang mga chip, packaging at testing, storage, optical modules, atbp.; ang mga产能 na hindi madaling palawakin at ang mga may mataas na malaking pader ay magkakaroon ng benepisyo mula sa malaking kapital expenditure;

Malaki pa rin ang puwang para sa pagpapabuti ng efficiency: ang distilasyon, quantization, MoE, mga espesyalisadong chip, liquid cooling, at pagsasama-sama (maikling panahon) ay maaaring bawasan ang enerhiya at gastos bawat yunit ng computing power ng 10–100 beses. Dapat hanapin ang mga pagkakataon sa mga bahaging ito.

Kasalukuyang naglabas ng mga update report ang mga investment bank tulad ng Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, at HSBC tungkol sa AI/semiconductor/energy/storage, at ang bottleneck sa AI hardware ay nagsabwatan na mula sa isang dimensyon na "supply ng GPU" patungo sa kolektibong kagipitan sa enerhiya, chip, storage, equipment, at materyales.

Ang pangangailangan sa AI ay napatunayan na lalong lumampas sa lahat ng mga antas ng pagtataya sa tradisyonal na pagpaplano ng kuryente, kakayahan ng produksyon ng semiconductor equipment, presyo ng memorya, at mga asumpsyon sa pag-install ng robot.

Ang pagsusuri sa global thematic research ng Morgan Stanley ay nagpapakita na ang lingguhang paggamit ng token sa global large language models ay tumalon mula sa 6.4 trilyon hanggang sa 22.7 trilyon sa loob ng 3 buwan, isang pagtaas ng 2.5 beses; ang kakulangan sa kuryente ng data center sa US mula 2025-28 ay 55 gigawatts; ang unang pagtatala ng JPMorgan sa obligasyon para sa high-performance computing sa data center ay direktang binigay ang bilang ng 122 gigawatts na kailangan ng pagsasapalaran sa susunod na 5 taon; ang plano sa kuryente ng US sa 5 taon ay tumalon mula sa 101 gigawatts patungo sa 230 gigawatts, at 44% ng mga bagong proyekto ay naghintay ng higit sa 4 taon para sa pagkonekta; sa pinakabagong ulat ng Bank of America para sa Alphabet, ang capital expenditure para sa 2026 ay diretso na itinataas hanggang sa $181.5 bilyon, na dumoble ang taon-taon, samantalang ang free cash flow ay bumaba ng 62%. Ang tatlong set ng datos na ito ay hindi galing sa iisang framework, kundi mga independiyenteng imahe mula sa tatlong hiwalay na institusyon sa kanilang magkakaibang mga landas ng pag-aaral.

Ang pag-unlad ng mga bottleneck sa supply chain ng semiconductor, lalo na sa larangan ng AI computing power, ay sumusunod sa malinaw na pagkakasunod-sunod mula sa “computing (GPU) → storage (HBM, atbp.) → optical interconnect → power/liquid cooling.” Ito ang pangkalahatang pag-unawa sa industriya para sa 2025-2026: habang lumalawak ang mga AI training/inference clusters mula sa isang cabinet (mga ilang dosenang GPU) patungo sa sobrang malaking sukat (libo-libo hanggang daan-daang libo ng GPU), bawat paglutas ng isang bottleneck ay agad na nagpapakita ng sumusunod na physical o supply chain constraint, bumubuo ng “Leontief-style” complementary constraints (kawalan ng anumang isa ay hindi makakapagbigay ng produkto).

Optical module

Mahalaga na maintindihan kung bakit nagkaron ng ganitong pagbabago, ang kasalukuyang kalagayan, at ang mga pisikal/inkayariang dahilan sa likod nito:

1. Unang yugto ng bottleneck: GPU computing (dominante sa 2022-2024) Pangunahing limitasyon:

Ang sariling kapasidad ng wafer ng高端GPU (tulad ng NVIDIA Hopper H100 → Blackwell B200 → Rubin) + advanced packaging.

Bakit isang bottleneck: Kailangan ng malalaking AI model ng malaking halaga ng paralel na pagkalkula, at ang produksyon ng TSMC 4nm/3nm/2nm logic process + CoWoS (2.5D/3D packaging) ay naging pinakamalaking hadlang. Kahit sapat ang mga wafer sa harapan, kung hindi kayang sunduin ng backend ang kakayahan na i-stack at i-package ang logic chip + HBM, hindi makakalabas ang buong GPU.

Pagpapalawig ng sitwasyon: Ang TSMC ay malakas na nagpapalawig ng CoWoS (doble ang kapasidad sa 2024-2025), at ang NVIDIA Blackwell ay malawak nang ipinadala. Ngunit ito ay naglulunsad lamang ng “kompyutasyon” na bahagi, at agad itong ipinapakita ang mga bagong problema.

2. Pangalawang yugto ng bottleneck: Pag-iimbak (HBM o High Bandwidth Memory, magiging pinakakulang noong 2024-2025)

Pangunahing limitasyon: Kapasidad ng HBM3/HBM3e/HBM4.

Bakit naging bottleneck ang pagpapasa: Dumami ang GPU computing power, ngunit tumitindi ang bilis ng paglago ng mga parameter ng model (trilyon o kahit sampung trilyon na parameter), at ang paghahatid ng data (memory bandwidth) ay naging “memory wall.” Ang HBM ay nakakapagpadala ng ilang TB ng data bawat segundo, mas mabilis 20 beses kaysa sa karaniwang DDR memory. Dahil malapit sa logic chip ang HBM, hindi kailangang maglakbay nang malayo ang data, kaya napapabawas ang enerhiyang ginagamit.

Kailangan ng isang B200 GPU ang 192GB+ na HBM3e, at ang kabuuang HBM sa isang rack (NVL72) ay umabot na sa 30-40TB, at mas malaki ang pangangailangan sa bandwidth kaysa sa tradisyonal na DRAM.

Kasalukuyang kalagayan ng supply chain: Tanging SK Hynix, Samsung, at Micron lamang ang kayang magproduksyon ng HBM sa malaking iskala, may komplikadong proseso (TSV + stack), at nangunguna na ang lahat ng produksyon para sa 2025, habang patuloy pa ring kakulangan sa supply para sa 2026, na tumataas ng 246% kumpara sa nakaraang taon. Kahit na handa na ang GPU chip, walang HBM ay hindi maaaring i-assembly at i-deliver, na nagdudulot ng pagkakabigo sa pag-deploy ng buong AI cluster.

Result: Ang pag-iimbak ay naging strategic choke point mula sa “kagamitan”; ang bahagi ng pag-iimbak sa gastos sa kapital ay maaaring umabot sa 30%.

3. Balyan sa Ikatlong Yugto: Optical Interconnect (nasa pagbabago sa 2025-2026)

Pangunahing limitasyon: Ang mga tanso cable (NVLink/NVSwitch) ay may pisikal na limitasyon sa bandwidth, distansya, pagkonsyumo ng enerhiya, at bigat.

Bakit kailangang lumipat sa light: Sa loob ng isang cabinet (72 GPUs), maaari pa ring gamitin ang copper cable, ngunit kapag i-extend sa maraming cabinet o sa libo-libong GPU na magkaugnay, ang copper cable ay may malaking pagkawala (efektibong layo ay <1 metro sa 1.8TB/s bandwidth), sobrang bigat (higit sa 5,000 na copper cable sa NVL72 cabinet, kabuuang timbang na 1.36 metric tons), at mataas na paggamit ng enerhiya (ang pagpapalit ng copper cable sa detachable optical module ay magdudulot ng karagdagang 20,000 watts). Hindi makakasuporta ang signal integrity, latency, at heat dissipation sa mas malalaking cluster.

Solusyon: Lumipat sa optical interconnect (CPO co-packaged optics + silicon photonics technology). I-encapsulate nang direkta ang optical engine sa tabi ng GPU/ASIC, at gamitin ang fiber optic para sa Scale-Out, na nagbibigay ng mas mataas na bandwidth density, mas mababang power per bit, at mas malayong distansya.

Optical module

NVIDIA ay naglalagay ng malaking taya sa GTC 2026, na may mga pag-invest sa mga kumpanya ng optics, at may biglaang pagtaas sa pangangailangan para sa 800G/1.6T optical modules. Ang lite, Broadcom, Coherent, Ayar Labs at iba pa ay naging mga bagong mananalo.

Kasalukuyang progreso: Nasa limitasyon na ang tanso na kable, at ang optical interconnect ay mula sa “opsyonal” ay naging “kailangan,” at nagpapabagsak sa hangganan ng performance ng AI data center.

4. Bote ng Ikaapat na Yugto (kasalukuyang pinakamalikha): Kuryente + Liquid Cooling (maging huling pisikal na hadlang mula 2026) Pangunahing limitasyon: Hangganan ng paggamit ng enerhiya + Hangganan ng pagpapalamig + Pagkonekta sa grid.

Bakit ito ang huling bottleneck: Bawat GPU mula sa 300W → 700-1200W, at mula sa 10-20kW (panahon ng CPU) tumataas agad sa 120-200kW+ o higit pa. Ang pisikal na limitasyon ng tradisyonal na air cooling ay lamang 20-50kW, at ang ingay, daloy ng hangin, at pagkain ng enerhiya ay hindi tanggap.

Sa panig ng kuryente: Ang mga data center ay nangangailangan ng pagbibigay ng lakas sa antas ng GW, at ang pagkakabigay ng pagsasalalay sa grid ay maaaring tumagal ng ilang taon, habang ang mga panahon ng pagpapadala ng mga transformer, solid-state transformer, at iba pang mga kagamitan ay napalawig hanggang 100 linggo. Noon, ang CEO ng Microsoft ay direktang sinabi, “May GPU ako ngunit walang plug para sa kuryente.”

Sa gilid ng likidong pagpapalamig: Dapat ilipat sa Direct-to-Chip (direktang likidong pagpapalamig sa chip) o immersion cooling, kasama ang mga teknolohiya tulad ng microfluidics at cold plates. Ang TSMC ay nagsagawa ng demo ng likidong pagpapalamig sa silicon sa platform na CoWoS, na sumusuporta sa >2.6kW TDP. Ang mga kumpanya sa likidong pagpapalamig at pagpapalamig sa init tulad ng Vertiv (VRT) ay naging bagong puso ng infrastraktura.

Chain reaction: Ang mga kakailanganin sa PUE (efficiency ng paggamit ng enerhiya) ay <1.2, at ang pagbabalik ng init, ang pagkonekta sa nuclear power/o bagong enerhiya ay naging mga bagong paksa. Kahit na lahat ng mga nakaraang yugto ay nalutas, kung walang kuryente at lamig, hindi makakapag-set up o magpapatakbo ang cabinet.

Optical module

Ang pangunahang lohika sa paglipat ng bottleneck sa supply chain ng AI computing power: Ang AI computing power ay hindi isang “isang punto” na problema, kundi isang sistemikong Leontief production function—kailangan ng GPU, HBM, interconnect, enerhiya, at pagpapalamig na magkakasunod-sunod ayon sa pinakamahinang bahagi. Bawat paglutas ng isang bahagi ng mga hyperscaler (tulad ng Google, Microsoft, Meta) ay agad na nagdadala ng kapital at inobasyon patungo sa susunod na bahagi.

Sa kasalukuyan (2026), nasa panahon ng pagbabago ang “pagpapabilis ng pagkakaroon ng optical interconnect + malawakang komersyal na paggamit ng enerhiya/liquid cooling,” at maaaring lumabas pa ang mga bagong bottleneck sa hinaharap (tulad ng laser, materyales ng optical fiber, o transformer ng grid), ngunit ang “kompyutasyon→pag-iimbak→optical→elektrisidad/cooling” na serye ay naging kilalang landas sa industriya.

Ito rin ang nagpapaliwanag kung bakit umiikot ang investmeng logika mula sa NVIDIA/TSMC patungo sa mga pangunahing producer ng HBM (tulad ng SK Hynix), mga kumpanya sa optics (tulad ng Lumentum, Coherent), at mga supplier ng liquid cooling at infrastruktura sa enerhiya (tulad ng Vertiv at mga kaugnay na kumpanya sa power).

Bawat paglipat ng bottleneck ay nagrere-reshape sa pagkakabahagi ng halaga sa buong industriya ng semiconductor + data center.