Kendala Rantai Pasok Komputasi AI Berpindah dari GPU ke Daya dan Pendinginan

Penulis: qinbafrank

Pada Februari, dalam artikel "Apa Arti Perang Pengeluaran Modal Ini?" telah dibahas bahwa tahapan kunci dalam rantai pasokan daya komputasi masih mampu mengekstraksi nilai terbesar: chip, pengemasan dan pengujian, penyimpanan, modul optik, dll.; kapasitas yang tidak mudah diperluas dengan cepat serta yang memiliki palisade sangat tinggi akan menikmati manfaat dari pengeluaran modal yang besar;

Masih ada ruang besar untuk optimasi efisiensi: distilasi, kuantisasi, MoE, chip khusus, pendinginan cair, fusi nuklir (jangka panjang) di sisi inferensi berpotensi menurunkan konsumsi energi dan biaya per unit komputasi sebesar 10–100 kali. Cari peluang di tahap-tahap ini.

Baru-baru ini, beberapa bank investasi besar seperti Morgan Stanley, JPMorgan Chase, Bank of America, Goldman Sachs, UBS, Citigroup, Bernstein, dan HSBC merilis laporan pembaruan terkait AI/semikonduktor/tenaga listrik/penyimpanan. Bottleneck pada perangkat keras AI telah meluas dari dimensi tunggal "pasokan GPU" menjadi ketegangan kolektif pada lima dimensi: listrik, chip, penyimpanan, peralatan, dan bahan.

Permintaan AI telah melewati semua perkiraan tradisional terhadap perencanaan daya listrik, kapasitas produksi peralatan semikonduktor, model harga penyimpanan, dan asumsi pemasangan robot.

Laporan tinjauan tema global dari Morgan Stanley menunjukkan bahwa konsumsi token model bahasa besar global meningkat dari 6,4 triliun menjadi 22,7 triliun dalam tiga bulan, naik 2,5 kali lipat; defisit listrik pusat data AS pada 2025-28 mencapai 55 gigawatt; proyek utang komputasi berkinerja tinggi untuk pusat data dari JPMorgan Chase memberikan estimasi pertama kali sebesar "122 gigawatt yang perlu didanai dalam lima tahun ke depan"; rencana listrik AS selama lima tahun melonjak dari 101 gigawatt menjadi 230 gigawatt, dengan 44% proyek baru menunggu waktu terhubung ke jaringan lebih dari empat tahun; dalam laporan harga target terbaru untuk Alphabet dari Bank of America, pengeluaran modal pada 2026 langsung dinaikkan menjadi $181,5 miliar, naik dua kali lipat secara tahunan, sedangkan arus kas bebas turun 62%. Ketiga data ini bukan hasil dari kerangka yang sama, melainkan gambaran independen dari tiga lembaga independen dengan jalur penelitian yang berbeda.

Bottleneck dalam rantai pasok semikonduktor (terutama di bidang kekuatan komputasi AI) berkembang secara berurutan yang jelas: dari "komputasi (GPU) → penyimpanan (HBM, dll.) → optik interkoneksi → listrik/penyejuk cair". Ini adalah konsensus industri untuk 2025-2026; seiring dengan perluasan klaster pelatihan/pengambilan kesimpulan AI dari satu rak (puluhan GPU) ke skala superbesar (ribuan hingga puluhan ribu GPU), setiap kali satu bottleneck teratasi, batasan fisik/permintaan rantai pasok berikutnya langsung terungkap, membentuk kendala komplementer "Leontief" (tanpa satu pun, produk tidak bisa dipasarkan).

Modul cahaya

Penting untuk memahami mengapa evolusi ini terjadi, kondisi saat ini, serta alasan fisik/teknis di baliknya:

1. Bottleneck tahap pertama: Komputasi GPU (dominan 2022-2024) Batasan utama:

Kapasitas wafer GPU kelas atas (seperti NVIDIA Hopper H100 → Blackwell B200 → Rubin) + packaging canggih.

Mengapa menjadi bottleneck: Model AI besar memerlukan komputasi paralel dalam jumlah besar, sehingga kapasitas proses logika TSMC 4nm/3nm/2nm + CoWoS (packaging 2.5D/3D) pernah menjadi titik penyempitan terbesar. Bahkan jika wafer depan tersedia, kemampuan backend untuk menumpuk dan memaketkan chip logika + HBM tidak dapat mengikuti, sehingga seluruh GPU tidak dapat diproduksi.

Situasi yang mereda: TSMC secara agresif memperluas CoWoS (kapasitas berlipat ganda pada 2024-2025), NVIDIA Blackwell telah dikirim dalam skala besar. Namun, ini hanya membuka kunci bagian "komputasi", yang langsung memperlihatkan masalah baru.

2. Kendala tahap kedua: Penyimpanan (HBM high-bandwidth memory, menjadi paling langka pada 2024-2025)

Batasan utama: Kapasitas HBM3/HBM3e/HBM4.

Mengapa接力 menjadi bottleneck: Daya komputasi GPU meningkat, tetapi parameter model tumbuh secara eksponensial (triliunan hingga puluhan triliun parameter), sehingga pemindahan data (memory bandwidth) menjadi "dinding memori". HBM dapat mentransmisikan beberapa TB data per detik, lebih cepat 20 kali daripada memori DDR biasa. Karena HBM berada dekat dengan chip logika, data tidak perlu ditransmisikan jauh, sehingga menghemat energi.

Satu GPU B200 memerlukan 192 GB+ HBM3e, total HBM dalam satu rak server (NVL72) telah mencapai 30-40 TB, dan kebutuhan bandwidth jauh melebihi DRAM tradisional.

Status rantai pasokan: Hanya SK Hynix, Samsung, dan Micron yang mampu memproduksi HBM dalam skala besar, dengan proses yang kompleks (TSV + stacking). Semua produksi tahun 2025 telah terjual habis, dan permintaan masih melebihi pasokan pada tahun 2026, dengan harga melonjak 246% dibanding tahun sebelumnya. Bahkan jika chip GPU sudah siap, tanpa HBM tidak dapat dirakit dan dikirimkan, menyebabkan penundaan seluruh penyebaran klaster AI.

Hasil: Penyimpanan berubah dari produk menjadi tahap kritis strategis, dengan proporsi belanja modal untuk penyimpanan dapat mencapai 30%.

3. Kendala tahap ketiga: interkoneksi cahaya (sedang beralih pada 2025-2026)

Batasan utama: Kabel tembaga (NVLink/NVSwitch) memiliki batas fisik dalam hal bandwidth, jarak, konsumsi daya, dan berat.

Mengapa harus beralih ke optik: Dalam satu rak (72 GPU), kabel tembaga masih bisa digunakan, tetapi ketika diperluas ke beberapa rak atau bahkan menghubungkan ribuan GPU, kabel tembaga mengalami redaman parah (jarak efektif <1 meter pada bandwidth 1,8 TB/s), beratnya melonjak (lebih dari 5.000 kabel tembaga di rak NVL72, total berat 1,36 ton), dan konsumsi daya tinggi (mengganti kabel tembaga dengan modul optik yang dapat dicabut akan menambah beban 20.000 watt). Integritas sinyal, latensi, dan manajemen panas tidak mampu mendukung klaster yang lebih besar.

Solusi: Beralih ke interkoneksi optik (CPO co-packaged optics + teknologi silikon fotonik). Pasang mesin optik langsung di samping GPU/ASIC, gunakan serat optik untuk Scale-Out, dengan kepadatan bandwidth lebih tinggi, konsumsi daya per bit lebih rendah, dan jarak yang lebih jauh.

Modul cahaya

NVIDIA memasang taruhan besar di GTC 2026, telah berinvestasi di perusahaan optik, permintaan modul optik 800G/1.6T meningkat pesat. Lite, Broadcom, Coherent, Ayar Labs menjadi pemenang baru.

Progress saat ini: Kabel tembaga telah mencapai batasnya, interkoneksi optik sedang berubah dari "opsional" menjadi "pilihan wajib", dan sedang menembus batas kinerja pusat data AI.

4. Kendala tahap keempat (batas terkini saat ini): Daya listrik + pendinginan cair (menjadi batas fisik akhir mulai 2026). Pembatas utama: dinding konsumsi daya + dinding pembuangan panas + akses jaringan listrik.

Mengapa ini menjadi bottleneck utama: Daya setiap GPU naik dari 300W menjadi 700-1200W, daya satu rak server melonjak dari 10-20kW (era CPU) menjadi 120-200kW+ atau lebih tinggi lagi. Batas fisik pendinginan udara tradisional hanya mencapai 20-50kW, dengan kebisingan, aliran udara, dan konsumsi energi yang tidak dapat diterima.

Sisi listrik: Pusat data memerlukan pasokan daya tingkat GW, antrian terhubung ke jaringan listrik bisa mencapai beberapa tahun, dan siklus pengiriman peralatan seperti transformator dan transformator solid-state diperpanjang hingga 100 minggu. CEO Microsoft pernah secara terbuka mengatakan, "Ada GPU tapi tidak ada colokan listrik."

Sisi pendinginan cair: Harus beralih ke Direct-to-Chip (pendinginan cair langsung ke chip) atau pendinginan cair dengan perendaman, dikombinasikan dengan teknologi seperti mikrofluida dan cold plate. TSMC telah mendemonstrasikan pendinginan cair berbasis silikon di platform CoWoS, mendukung TDP >2,6 kW. Produsen pendinginan cair/Manajemen termal seperti Vertiv (VRT) menjadi inti infrastruktur baru.

Rantai reaksi: Persyaratan PUE (efisiensi pemanfaatan energi listrik) <1,2, pemanfaatan panas buang, dan integrasi energi nuklir/energi baru menjadi topik baru. Bahkan jika semua tahap sebelumnya telah diselesaikan, tanpa listrik dan pendingin, rak server tidak dapat dipasang dan dioperasikan.

Modul cahaya

Logika mendasar pergeseran bottleneck dalam rantai pasokan kekuatan komputasi AI: Kekuatan komputasi AI bukanlah masalah "titik tunggal", melainkan fungsi produksi Leontief sistemik—GPU, HBM, interkoneksi, listrik, dan pendinginan harus disesuaikan berdasarkan komponen terlemah. Setiap kali hyperscaler (seperti Google, Microsoft, Meta, dll.) menyelesaikan satu aspek, mereka segera mendorong modal dan inovasi ke tahap berikutnya.

Saat ini (2026) sedang berada dalam periode transisi “penerapan cepat interkoneksi optik + komersialisasi skala besar listrik/penyejuk cair”, di masa depan mungkin akan muncul hambatan baru (seperti laser, bahan serat optik, atau transformator jaringan listrik), tetapi rantai “komputasi → penyimpanan → optik → listrik/penyejuk” ini telah menjadi jalur yang diakui industri.

Ini juga menjelaskan mengapa logika investasi berpindah dari NVIDIA/TSMC ke tiga pemain utama HBM (seperti SK Hynix), produsen optik (Lumentum, Coherent), serta infrastruktur pendinginan cair/tenaga (Vertiv, perusahaan catu daya terkait).

Setiap pergeseran bottleneck membentuk ulang distribusi nilai dalam seluruh rantai industri semikonduktor dan pusat data.