DeepSeek Memotong Biaya API hingga 100x, Memicu Perdebatan tentang Sentralisasi Infrastruktur AI

—— Berawal dari pidato Gonka di LA Hacks 2026

Pada 26 April, DeepSeek meluncurkan penetapan harga baru untuk seri API V4: harga untuk keberhasilan cache input pada seluruh produk diturunkan menjadi sepertiga dari harga peluncuran awal, dan setelah ditambahkan promosi terbatas untuk versi Pro, biaya pemrosesan satu juta Token turun menjadi hanya 0,025 yuan—lebih murah hampir seratus kali dibanding satu tahun lalu. Sektor komputasi A-share langsung mengalami penutupan di level batas atas pada hari yang sama, membuat suasana pasar menjadi sangat antusias.

Namun, di balik sorak sorai, ada satu pertanyaan yang tidak dibahas secara terbuka: ketika model menjadi semakin murah, kekuatan komputasi yang diperlukan untuk menjalankan model semakin terkonsentrasi.

Data tidak bohong. Pada kuartal keempat 2025, empat penyedia cloud—Microsoft, Amazon, Meta, dan Google—mengalami peningkatan belanja modal tahunan sebesar 64% menjadi $118,6 miliar; diperkirakan total belanja modal tahun 2026 akan meningkat lagi 53% secara tahunan, mencapai $570,8 miliar. Google juga menaikkan target pengiriman chip TPU tahun 2026 sebesar 50% menjadi 6 juta unit. Masa tunggu pengiriman seri NVIDIA H100 di beberapa pasar kini telah mencapai beberapa bulan.

Kekuatan penetapan harga di lapisan model sedang bergeser ke arah pengembang, tetapi kendali di lapisan daya komputasi sedang terkonsentrasi lebih cepat ke tangan beberapa raksasa. Ini adalah kontradiksi yang tersembunyi namun mendalam di era AI.

Gonka

Dalam konteks ini, pada 24 April 2026, Daniil dan David Liberman, co-founder protokol Gonka, naik ke panggung keynote di LA Hacks 2026. Hackerathon kampus terbesar tahunan UCLA ini tahun ini dijadikan sebagai keynote oleh saudara Liberman, menghadapi ratusan insinyur puncak yang segera memasuki industri ini. Pertanyaan yang mereka ajukan saat ini terdengar sangat jelas: Apakah kekuatan komputasi terdesentralisasi masih bisa diwujudkan?

Satu sisi dari gelombang penurunan harga

Logika penurunan harga DeepSeek V4, secara tampak, adalah manfaat efisiensi yang dihasilkan dari kemajuan teknologi—mekanisme perhatian baru memampatkan dimensi Token, dikombinasikan dengan perhatian jarang DSA, yang secara signifikan mengurangi kebutuhan akan komputasi dan memori GPU. Namun, penurunan harga dapat berlanjut tergantung pada asumsi bahwa ada sumber daya komputasi yang cukup melimpah dan cukup murah di suatu tempat.

Faktanya, sumber daya komputasi yang "cukup memadai" ini sedang dengan cepat berkonsentrasi pada sejumlah node kecil di seluruh dunia. CEO pemimpin komunikasi optik Lumentum Michael Hurlston baru-baru ini menyatakan bahwa, berdasarkan tren saat ini, kapasitas perusahaan hampir seluruhnya telah terjual habis hingga tahun 2028. Ini bukan hanya masalah perusahaan tunggal, tetapi ketegangan kolektif di seluruh rantai pasokan infrastruktur AI menghadapi permintaan yang berkembang pesat.

Daniil dalam pidatonya di LA Hacks menggunakan perbandingan sederhana namun kuat: daya komputasi jaringan Bitcoin telah melampaui total seluruh pusat data cloud Google, Microsoft, dan Amazon—tetapi apa yang dilakukan daya komputasi ini? Memecahkan teka-teki hash yang tidak ada yang membutuhkan jawabannya. Daya komputasi GPU yang menganggur di seluruh dunia juga demikian: kartu grafis di mesin gamer, server di laboratorium universitas, dan kapasitas sisa dari penyedia cloud menengah-kecil, jika digabungkan, berukuran sangat besar, namun karena tidak adanya mekanisme koordinasi, tidak dapat dimanfaatkan untuk inferensi AI.

Gonka mencoba menyelesaikan masalah koordinasi ini—menggunakan mekanisme insentif proof-of-work untuk mengorganisasi GPU yang menganggur di seluruh dunia menjadi jaringan yang dapat menangani tugas inferensi AI nyata.

II. Inferensi adalah medan pertempuran baru

Pengurangan harga DeepSeek memicu diskusi luas tentang "pemerataan AI" di internet Tiongkok. Namun, ada satu detail yang diabaikan: pengurangan harga berlaku untuk "harga panggilan", bukan "biaya daya komputasi". Seiring skalabilitas aplikasi AI, volume panggilan inferensi tumbuh secara eksponensial—menurut prediksi industri, pada tahun 2026, inferensi diperkirakan akan menyumbang sekitar dua pertiga dari konsumsi daya komputasi AI global.

Apa artinya ini? Setiap penurunan satu tingkat harga panggilan, total kekuatan komputasi yang diperlukan justru akan lebih banyak, bukan lebih sedikit. "Demokratisasi" model besar, dalam beberapa hal, justru mempercepat konsentrasi lapisan kekuatan komputasi—karena hanya pemain yang memiliki kekuatan komputasi skala besar yang dapat bertahan dalam operasi layanan inferensi dengan margin super rendah.

Ini adalah kunci struktural yang sedang terbentuk: siapa yang menguasai daya komputasi fisik di sisi inferensi, dialah yang menguasai pintu masuk infrastruktur sejati di era AI. Dari sudut pandang ini, makna jaringan komputasi terdesentralisasi tidak lagi sekadar penghematan biaya sebesar '50% lebih murah', tetapi menyediakan jalur alternatif struktural sebelum kunci terpusat terwujud.

Tiga, Pertanyaan Nyata kepada Para Pembangun Muda

Peserta LA Hacks—insinyur dan profesional produk dari universitas-universitas terkemuka di California—akan segera menghadapi pilihan teknis yang tidak romantis: membangun produk mereka di atas lapisan komputasi mana.

Server siapa yang digunakan oleh produk AI Anda untuk pemanggilan inferensi?

Apakah Anda memiliki kemampuan untuk bermigrasi ketika platform tersebut menyesuaikan strategi penetapan harga atau kebijakan akses?

Skala pengguna yang Anda bantu bangun, apakah sedang menciptakan nilai bagi diri Anda sendiri, atau sedang memberikan筹码 kepada platform?

Masalah-masalah ini telah dialami oleh para pengembang di era Web2: ketika takdir aplikasi sangat terikat pada algoritma atau aturan distribusi platform, "independensi" menjadi kata yang perlu didefinisikan ulang setiap saat. Ketergantungan pada daya komputasi di era AI akan mereplikasi logika yang sama ke lapisan infrastruktur, dan karena biaya perpindahan lebih tinggi, efek penguncian hanya akan semakin kuat.

Gonka

Hackathon, sebagai suatu bentuk, memiliki ironi bawaan: dalam 36 jam, membangun sesuatu yang berfungsi dengan sumber daya paling sedikit dan kecepatan paling cepat—ini justru merupakan keadaan yang dikejar oleh mekanisme insentif jaringan terdesentralisasi. Daniil naik ke panggung di LA Hacks, bukan hanya untuk membicarakan Gonka, tetapi lebih seperti menanyakan pada kelompok ini: tindakan yang akan kalian lakukan di masa depan, apakah akan mempercepat tren terpusat ini, atau menciptakan kemungkinan baru?

Empat: PoW 2.0: Sebuah pernyataan teknik

Gonka mengalihkan struktur insentif proof-of-work dari perhitungan hash ke inferensi AI, sehingga hampir 100% kontribusi daya komputasi dalam jaringan secara langsung terkait dengan tugas nyata. Mekanisme ini memiliki persyaratan teknis kunci: tugas inferensi AI harus dapat diverifikasi dan direproduksi—dengan memberikan bobot model yang sama, benih acak yang sama, dan input yang sama, setiap node dapat mereproduksi hasil komputasi dan memverifikasi validitasnya. Ini merupakan tantangan teknis inti yang mengubah prototipe akademis Gonka menjadi jaringan yang dapat dijalankan.

Dari sudut pandang ekonomi, makna mekanisme ini adalah: nilai token secara alami diikat pada biaya kekuatan komputasi fisik, bukan pada sentimen likuiditas. Para penambang yang menyumbangkan kekuatan komputasi mendapatkan imbalan, sementara pengembang yang memanfaatkan kekuatan komputasi membayar biaya, sehingga seluruh siklus insentif sistem tidak bergantung pada kebaikan pihak perantara apa pun.

Tentu, kelayakan teknis hanyalah sebagian dari masalahnya. Masalah yang lebih sulit adalah: di era di mana permintaan daya komputasi tumbuh pesat dan pengeluaran modal pemain besar berada di tingkat miliaran dolar AS, apakah jaringan daya komputasi terdistribusi yang diorganisir oleh kontribusi sukarela komunitas dapat mencapai skala yang benar-benar kompetitif?

Data awal Gonka memberikan koordinat referensi: dalam waktu kurang dari satu tahun sejak peluncuran mainnet, total daya komputasi jaringan meningkat dari 60 unit ekuivalen H100 menjadi lebih dari 10.000 unit, dengan kecepatan ini berasal dari akses spontan dari ratusan node independen di seluruh dunia, bukan dari alokasi terpusat. Ini tidak membuktikan bahwa masalah skala telah teratasi, tetapi menunjukkan bahwa mekanisme insentif secara efektif mendorong pertumbuhan awal.

V. Masalah periode jendela

Secara historis, penguasaan infrastruktur seringkali cepat berkonsentrasi di awal—demikian pula pada era kereta api, era internet, dan era internet seluler. Setiap kali, ada yang menemukan celah untuk masuk sebelum standar tetap, dan ada pula yang baru menyadari bahwa hak partisipasi telah menyempit drastis setelah proses sentralisasi selesai.

Infrastruktur komputasi AI saat ini berada di tahap mana? Dari perkiraan pengeluaran modal sebesar 570,8 miliar dolar AS dari empat penyedia cloud pada tahun 2026, sentralisasi sedang mempercepat; namun dari pola penggunaan nyata para pengembang, sisi penawaran masih memiliki banyak sumber daya yang belum terintegrasi secara efektif. Celah ini adalah ruang struktural di mana jaringan terdesentralisasi dapat eksis.

Daniil dalam pidatonya mengutip perbandingan: setelah gelembung internet meledak pada tahun 2000, yang tersisa bukanlah puing-puing, melainkan jaringan serat optik yang membentang di seluruh dunia, mendukung operasi ekonomi digital selama dua dekade berikutnya. Setelah gelombang investasi infrastruktur AI mereda, protokol komputasi dan mekanisme insentif yang tertinggal akan menjadi infrastruktur untuk siklus berikutnya—pertanyaannya hanyalah, protokol mana yang logika dasarnya cukup kuat untuk tetap berfungsi di bawah tekanan.

Ini bukan pertanyaan tentang proyek tertentu, tetapi masalah yang harus dihadapi oleh seluruh lintasan AI terdesentralisasi: apakah desain tata kelola benar-benar mampu menahan erosi kendali titik tunggal? Apakah mekanisme insentif tetap efektif setelah skala meningkat? Apakah desentralisasi jaringan komputasi berlaku secara simultan pada tiga tingkat: eksekusi teknis, penerbitan token, dan pengambilan keputusan pembaruan?

Penutup

Penurunan harga DeepSeek membuat narasi "demokratisasi AI" kembali memanas. Tetapi demokratisasi panggilan inferensi dan demokratisasi infrastruktur komputasi adalah dua hal yang berbeda. Yang pertama sedang terjadi; yang kedua apakah akan terjadi, bergantung pada berapa banyak orang yang benar-benar memperlakukan ini sebagai masalah teknik yang layak dipecahkan, bukan hanya narasi yang terdengar bagus.