Penghalang Rantaian Bekalan AI Compute Berpindah dari GPU kepada Kuasa dan Penyejukan

Penulis: qinbafrank

Pada Februari, dalam artikel “Apakah Perang Perbelanjaan Modal Ini Bermakna?”, kita telah membahas bahawa elemen-elemen kunci dalam rantai nilai pengiraan masih mampu mengekstrak nilai terbesar: cip, pembungkusan dan pengujian, penyimpanan, modul cahaya, dll—mana-mana kapasiti yang tidak mudah diperluaskan, dan mana-mana yang mempunyai palang perlindungan yang sangat tinggi, akan menikmati manfaat daripada perbelanjaan modal yang besar;

Ruang untuk peningkatan kecekapan masih sangat besar: distilasi, kuantisasi, MoE, cip khusus, pendinginan cecair, dan fusi nuklear (jangka panjang) di sisi inferens mungkin dapat mengurangkan penggunaan tenaga dan kos per unit pengiraan sebanyak 10–100 kali. Cari peluang di dalam elemen-elemen ini.

Baru-baru ini, pelbagai bank pelaburan seperti Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, dan HSBC telah menerbitkan laporan pembaharuan berkaitan AI/semikonduktor/kuasa/penyimpanan; bottleneck dalam peranti AI telah merebak dari dimensi tunggal "bekalan GPU" kepada ketegangan kolektif dalam lima dimensi: kuasa, cip, penyimpanan, peralatan, dan bahan.

Permintaan AI telah melepasi semua julat ramalan tradisional bagi perancangan kuasa, kapasiti peralatan semikonduktor, model harga penyimpanan, dan anggapan pemasangan robot.

Laporan tinjauan tema global dari Morgan Stanley menunjukkan bahawa penggunaan token model bahasa besar global meningkat dari 6.4 trilion menjadi 22.7 trilion dalam tempoh tiga bulan, iaitu peningkatan sebanyak 2.5 kali ganda, dengan kekurangan kuasa 55 gigawatt di Amerika Syarikat antara 2025-2028; projek hutang komputasi berprestasi tinggi untuk pusat data JPMorgan Chase yang pertama kali diliput secara langsung memberikan angka kekurangan "122 gigawatt yang perlu didanai dalam lima tahun ke depan", dengan perancangan kuasa Amerika Syarikat dalam lima tahun meningkat dari 101 gigawatt kepada 230 gigawatt, dengan 44% projek baharu menunggu masa sambungan lebih daripada empat tahun; dalam laporan harga sasaran terkini Bank of America untuk Alphabet, perbelanjaan modal pada 2026 secara langsung dinaikkan kepada US$181.5 bilion, iaitu ganda dua berbanding tahun sebelumnya, dengan arus tunai bebas menurun sebanyak 62%. Ketiga-tiga set data ini bukan hasil daripada kerangka yang sama, tetapi gambaran independen daripada tiga institusi berasingan melalui lintasan penyelidikan yang berbeza.

Pembatasan dalam rantai pasokan semikonduktor (terutama dalam bidang kekuatan komputasi AI) berubah secara berurutan yang jelas: dari "komputasi (GPU) → penyimpanan (HBM, dll.) → interkoneksi optik → tenaga/penyejukan cair". Ini adalah konsensus industri untuk 2025-2026; seiring dengan perluasan kluster pelatihan/penginferensian AI dari satu rak (puluhan GPU) ke skala superbesar (ribuan hingga puluhan ribu GPU), setiap kali satu pembatasan diselesaikan, pembatasan fizikal/ranjang pasokan seterusnya akan segera terdedah, membentuk batasan pelengkap "Leontief" (tiada satu pun boleh dihantar tanpa yang lain).

Modul cahaya

Perlu memahami mengapa evolusi ini berlaku, keadaan semasa, serta sebab fizikal/kejuruteraan di sebaliknya:

1. Pintu masuk fasa pertama: Pengiraan GPU (mendominasi 2022-2024) Pembatasan utama:

Kapasiti wafer untuk GPU kelas tinggi (seperti NVIDIA Hopper H100 → Blackwell B200 → Rubin) + pengepakan canggih.

Mengapa menjadi bottleneck: Model AI besar memerlukan pengiraan selari dalam jumlah besar, dan kapasiti proses logik TSMC 4nm/3nm/2nm + CoWoS (pengepakan 2.5D/3D) pernah menjadi titik penyekat utama. Walaupun wafer hulu mencukupi, kemampuan hujung belakang untuk mengepakan chip logik + HBM secara bertingkat tidak mampu mengikuti, menyebabkan keseluruhan GPU tidak dapat dihasilkan.

Penyelesaian: TSMC memperluas secara besar-besaran CoWoS (kapasiti ganda dua pada 2024-2025), NVIDIA Blackwell telah dihantar dalam jumlah besar. Tetapi ini hanya membuka kunci bahagian "komputasi", dan segera mengekspos masalah baru seterusnya.

2. Bottleneck fasa kedua: Penyimpanan (HBM - High Bandwidth Memory, paling kekurangan pada 2024-2025)

Pembatasan utama: Kapasiti HBM3/HBM3e/HBM4.

Mengapa relay menjadi bottleneck: Kuasa pengiraan GPU meningkat, tetapi parameter model meningkat secara eksponen (triliunan hingga puluhan triliun parameter), dan pemindahan data (lebar pita memori) menjadi "dinding memori". HBM mampu menghantar beberapa TB data per saat, lebih cepat 20 kali ganda berbanding memori DDR biasa. Kerana HBM berdekatan dengan cip logik, data tidak perlu dipindahkan jauh, oleh itu menjimatkan tenaga.

Sebuah GPU B200 memerlukan 192GB+ HBM3e, jumlah total HBM dalam satu rak (NVL72) telah mencapai 30-40TB, dan keperluan bandwidth jauh melebihi DRAM tradisional.

Status pasu bekalan: Hanya SK Hynix, Samsung, dan Micron yang mampu menghasilkan HBM dalam skala besar, dengan proses yang kompleks (TSV silikon + susunan). Semua unit pada 2025 telah terjual habis, dan permintaan masih melebihi penawaran pada 2026, dengan harga meningkat 246% berbanding tahun sebelumnya. Walaupun cip GPU sudah siap, tanpa HBM, ia tidak boleh dirangkai dan dihantar, menyebabkan penangguhan pemasangan keseluruhan kluster AI.

Hasil: Penyimpanan berubah dari "barang" menjadi tahap kritikal strategik, dengan peratusan perbelanjaan modal untuk penyimpanan boleh mencapai 30%.

3. Pintu penghalang fasa ketiga: Interkoneksian cahaya (sedang beralih pada 2025-2026)

Pembatasan utama: Kabel tembaga (NVLink/NVSwitch) mempunyai had fizikal dalam hal bandwidth, jarak, penggunaan kuasa, dan berat.

Mengapa peralihan ke cahaya adalah tak terelakkan: Dalam satu rak (72 GPU), kabel tembaga masih boleh digunakan, tetapi apabila diperluas ke beberapa rak, atau bahkan menghubungkan ribuan GPU, kabel tembaga mengalami pelemahan yang serius (jarak efektif kurang dari 1 meter pada bandwidth 1.8TB/s), beratnya melonjak (lebih dari 5,000 kabel tembaga dalam rak NVL72, berat keseluruhan 1.36 tan), dan penggunaan kuasa tinggi (menggantikan kabel tembaga dengan modul cahaya yang boleh dicabut akan menambah beban 20,000 watt). Keutuhan isyarat, latensi, dan pengurusan haba tidak mampu menyokong kelompok yang lebih besar.

Penyelesaian: Beralih kepada interkonjeksi cahaya (CPO: Optik Terpadu Bersama + Teknologi Fotonik Silikon). Pasang enjin cahaya secara langsung di samping GPU/ASIC, gunakan fi bercahaya untuk Scale-Out, dengan kepadatan bandwidth yang lebih tinggi, penggunaan kuasa per bit yang lebih rendah, dan jarak yang lebih jauh.

Modul cahaya

NVIDIA memberikan tumpuan besar di GTC 2026, telah berinvestasi dalam syarikat optik, permintaan untuk modul cahaya 800G/1.6T meningkat secara meledak. Lite, Broadcom, Coherent, Ayar Labs dan lain-lain menjadi pemenang baharu.

Kemajuan semasa: Kabel tembaga telah mencapai hadnya, dan interkoneksi optik sedang berubah daripada “pilihan” kepada “keperluan mutlak”, serta menembusi had prestasi pusat data AI.

4. Bottleneck fasa keempat (terkini): Kuasa + Penyejukan cecair (menjadi had fizikal akhir bermula 2026). Had utama: Dinding kuasa + Dinding pembuangan haba + Akses grid.

Mengapa ia merupakan longkang akhir: Setiap GPU meningkat dari 300W ke 700-1200W, sementara satu rak server melonjak dari 10-20kW (era CPU) ke 120-200kW+ atau lebih tinggi lagi. Had fizikal penyejukan udara tradisional hanya 20-50kW, dengan bunyi, aliran udara, dan penggunaan tenaga yang tidak boleh diterima.

Sisi kuasa: Pusat data memerlukan bekalan kuasa dalam tahap GW, antrian sambungan ke grid boleh mencapai beberapa tahun, dan tempoh penghantaran peralatan seperti transformer dan transformer keadaan pepejal diperpanjangkan hingga 100 minggu. CEO Microsoft pernah menyatakan secara terus: "Ada GPU tetapi tiada colokan kuasa."

Sisi penyejukan cecair: Mesti beralih kepada penyejukan cecair langsung ke cip (Direct-to-Chip) atau penyejukan cecair perendaman, digabungkan dengan teknologi mikrofluidik, papan sejuk, dsb. TSMC telah menunjukkan penyejukan cecair berbasis silikon di platform CoWoS, menyokong TDP >2.6kW. Pembuat penyejukan cecair/ pengurusan haba seperti Vertiv (VRT) menjadi inti infrastruktur baharu.

Rantai reaksi: Syarat PUE (kecekapan penggunaan tenaga listrik) <1.2, kitar semula haba sisa dan penggabungan tenaga nuklear/tenaga baharu menjadi topik baharu. Walaupun semua peringkat sebelumnya telah diselesaikan, tanpa kuasa dan sejuk, kabinet tidak boleh dipasang dan dioperasikan.

Modul cahaya

Logik asas peralihan bottleneck dalam rantai pasokan kekuatan komputasi AI: Kekuatan komputasi AI bukanlah masalah "titik tunggal", tetapi fungsi produksi Leontief sistemik—GPU, HBM, penghubung, tenaga listrik, dan pendinginan mesti diselaraskan mengikut bahagian terlemah. Setiap kali hyperscaler (seperti Google, Microsoft, Meta) menyelesaikan satu elemen, mereka segera mendorong modal dan inovasi ke elemen seterusnya.

Saat ini (2026), kita berada dalam fasa peralihan “penerapan pantas penerangan serat + komersialisasi skala besar kuasa/penyejukan cecair”, dan mungkin akan muncul batasan baharu di masa depan (seperti laser, bahan serat optik, atau transformer grid), tetapi rantai “komputasi → penyimpanan → cahaya → kuasa/penyejukan” ini telah diiktiraf sebagai laluan industri.

Ini juga menjelaskan mengapa logik pelaburan berpindah dari NVIDIA/TSMC kepada tiga pemain utama HBM (seperti SK Hynix), pengeluar optik (Lumentum, Coherent), serta infrastruktur penyejukan cecair/kuasa (Vertiv, syarikat kuasa berkaitan).

Setiap perpindahan bottleneck membentuk semula pembahagian nilai dalam keseluruhan industri semikonduktor dan pusat data.