DeepSeek Mengurangkan Kos API Sebanyak 100 Kali, Memicu Perbincangan Mengenai Pusat Penyediaan Infrastruktur AI

—— Bermula daripada ucapan Gonka di LA Hacks 2026

Pada 26 April, DeepSeek melancarkan penentuan harga baru untuk siri API V4: harga pemadanan cache input untuk seluruh siri diturunkan kepada sepuluh peratus harga pelancaran, dan selepas ditambah dengan promosi terhad untuk versi Pro, kos pemprosesan satu juta Token hanya RM0.025—lebih murah hampir seratus kali ganda berbanding setahun yang lalu. Sektor kekuatan pengiraan A-share mengalami kenaikan maksimum serentak pada hari itu, dengan suasana pasaran yang bergelora.

Namun, di sebalik sorakan, ada satu persoalan yang tidak dibincangkan secara terus terang: apabila model menjadi semakin murah, kekuatan pengiraan yang diperlukan untuk menjalankan model semakin terpusat.

Data tidak bohong. Pada kuartal keempat 2025, belanja modal gabungan empat penyedia awan—Microsoft, Amazon, Meta, dan Google—meningkat 64% menjadi US$118.6 bilion; dijangka belanja modal gabungan sepanjang tahun 2026 akan meningkat lagi sebanyak 53% secara tahunan, mencapai US$570.8 bilion. Google juga menaikkan sasaran penghantaran chip TPU pada 2026 sebanyak 50% kepada 6 juta unit. Tempoh penghantaran rangkaian H100 NVIDIA telah mencapai beberapa bulan di beberapa pasaran.

Kuasa penetapan harga di lapisan model sedang beralih kepada pembangun, tetapi kuasa kawalan di lapisan pengiraan sedang berkumpul lebih pantas kepada sedikit pemain besar. Ini adalah kontradiksi yang halus tetapi mendalam di era AI.

Gonka

Dalam konteks ini, pada 24 April 2026, Daniil dan David Liberman, pemilik bersama protokol Gonka, naik ke pentas ucapan utama LA Hacks 2026. Hackerathon universiti tahunan terbesar UCLA ini tahun ini dijadikan sebagai pembicara utama oleh saudara Liberman, menghadapi ratusan jurutera terkemuka yang akan memasuki industri ini. Pertanyaan yang mereka ajukan pada masa ini sangat jelas: Adakah masih ada masa untuk kuasa terpusat?

Satu sisi gelombang penurunan harga

Logik penurunan harga DeepSeek V4, secara zahirnya adalah keuntungan kecekapan yang dibawa oleh kemajuan teknologi—mekanisme perhatian baru mengompres dimensi Token, digabungkan dengan perhatian jarang DSA, yang secara besar-besaran mengurangkan keperluan terhadap pengiraan dan memori grafik. Tetapi penurunan harga boleh berterusan bergantung pada prasyarat bahawa kekuatan pengiraan di suatu tempat cukup mencukupi dan cukup murah.

Fakta sebenarnya adalah, sumber kekuatan pengiraan yang "cukup mencukupi" ini sedang dengan cepat berkumpul di beberapa nod sahaja secara global. CEO Lumentum, Michael Hurlston baru-baru ini menyatakan bahawa mengikut tren semasa, kapasiti syarikat hampir habis dijual hingga tahun 2028. Ini bukanlah masalah individu syarikat, tetapi ketegangan kolektif seluruh rantaian bekalan infrastruktur AI di hadapan permintaan yang meluas dengan pantas.

Daniil menggunakan perbandingan yang sederhana namun kuat dalam ucapan di LA Hacks: daya komputasi rangkaian Bitcoin melebihi jumlah keseluruhan pusat data awan Google, Microsoft, dan Amazon—tetapi apakah daya komputasi ini lakukan? Menyelesaikan teka-teki hash yang tidak ada siapa pun memerlukan jawapannya. Daya komputasi GPU yang tidak digunakan secara global berlaku sama: kad grafik dalam mesin pemain game, pelayan di ruang komputer universiti, dan kelebihan yang dimiliki oleh penyedia awan kecil dan sederhana, apabila digabungkan, berskala besar, tetapi tidak dapat digunakan oleh inferensi AI kerana kurangnya mekanisme koordinasi.

Gonka cuba menyelesaikan masalah koordinasi ini—menggunakan mekanisme insentif bukti kerja untuk mengorganisasi GPU yang tidak digunakan di seluruh dunia menjadi rangkaian yang mampu menjalankan tugas inferensi AI sebenarnya.

Dua, penarikan adalah medan pertempuran yang baru

Pengurangan harga DeepSeek telah memicu perbincangan luas mengenai "kesetaraan AI" di internet Cina. Tetapi satu butir detail yang diabaikan: pengurangan harga berlaku untuk "harga panggilan", bukan "kos pengiraan". Seiring penskalaan aplikasi AI, jumlah panggilan inferensian meningkat secara eksponen—menurut ramalan industri, pada 2026, inferensian akan mengambil kira-kira dua pertiga daripada keseluruhan penggunaan pengiraan AI di seluruh dunia.

Ini bermaksud apa? Setiap penurunan satu tahap harga panggilan, jumlah tenaga pengiraan yang diperlukan secara sebenar hanya akan bertambah, bukan berkurang. "Demokratisasi" model besar, dalam beberapa segi, malah mempercepat pengumpulan tenaga pengiraan—kerana hanya pemain yang memiliki tenaga pengiraan berskala besar yang mampu mengekalkan operasi perkhidmatan inferens di bawah margin yang sangat rendah.

Ini adalah penguncian struktural yang sedang terbentuk: siapa yang menguasai kekuatan komputasi fisik di sisi inferensi, dialah yang menguasai pintu masuk infrastruktur sejati di era AI. Dari sudut pandang ini, makna jaringan kekuatan komputasi terdesentralisasi bukan lagi sekadar pengoptimalan biaya yang lebih murah 50%, tetapi menyediakan jalan alternatif struktural sebelum penguncian terpusat selesai.

Tiga, Pertanyaan Sebenar Terhadap Pembina Muda

Peserta LA Hacks—jurutera dan pakar produk dari universiti-universiti terkemuka di California—akan segera menghadapi pilihan kejuruteraan yang tidak romantis: membina produk mereka di atas lapisan kuasa pengiraan yang mana.

Server siapakah yang digunakan oleh produk AI anda untuk panggilan inferens?

Apakah anda mempunyai kemampuan untuk berpindah apabila platform tersebut menyesuaikan strategi penentuan harga atau dasar akses?

Skala pengguna yang anda bantu bangun, sedang menciptakan nilai untuk diri sendiri, atau sedang memberikan modal kepada platform?

Masalah-masalah ini telah dialami oleh pengembang semasa era Web2: apabila nasib aplikasi terikat erat dengan algoritma platform atau peraturan pengagihan, "kebebasan" menjadi perkataan yang perlu ditakrif semula setiap masa. Ketergantungan kepada kuasa pengiraan di era AI akan menyalin semula logik yang sama ke lapisan infrastruktur, dan kerana kos peralihan lebih tinggi, kesan penguncian hanya akan menjadi lebih kuat.

Gonka

Hackathon, sebagai satu bentuk, memiliki ironi tersendiri: dalam masa 36 jam, membina sesuatu yang berfungsi dengan sumber paling minimum dan kelajuan paling pantas—keadaan yang tepat dicita-citakan oleh mekanisme insentif rangkaian terdesentralisasi. Daniil naik ke pentas LA Hacks bukan semata-mata untuk membincangkan Gonka, tetapi lebih kepada menanyakan kepada orang-orang ini: perkara yang akan anda lakukan di masa depan, adakah ia membantu mempercepat tren terpusat, atau mencipta kemungkinan baru?

Empat: PoW 2.0: Sebuah isu kejuruteraan

Gonka mengalihkan struktur insentif bukti-kerja dari pengiraan hash kepada inferens AI, memastikan hampir 100% sumbangan kuasa pengiraan dalam rangkaian secara langsung berkaitan dengan tugas sebenar. Mekanisme ini memerlukan satu keperluan kejuruteraan penting: tugas inferens AI mestilah boleh diverifikasi dan boleh diulang—dengan memberikan bobot model yang sama, benih rawak yang sama, dan input yang sama, sebarang nod boleh mengulangi hasil pengiraan dan mengesahkan kesahihannya. Ini merupakan cabaran kejuruteraan utama yang membawa Gonka dari prototaip akademik kepada rangkaian yang berfungsi.

Dari sudut pandang ekonomi, makna mekanisme ini ialah: nilai token secara semula jadi diikat kepada kos tenaga komputasi fizikal, bukan emosi likuiditi. Penambang yang menyumbang tenaga komputasi mendapat balasan, sementara pembangun yang memanggil tenaga komputasi membayar bayaran, mencipta lingkaran insentif sistem yang tidak bergantung pada kebaikan pihak perantara.

Tentu, kelayakan teknikal hanyalah sebahagian daripada persoalan. Masalah yang lebih sukar ialah: di era di mana permintaan kuasa pengiraan meningkat dengan pantas dan perbelanjaan modal pemain besar berukuran dalam ratusan bilion dolar, adakah rangkaian pengiraan terdistribusi yang diorganisir melalui sumbangan spontan komuniti mampu mencapai skala yang menjadi persaingan sebenar?

Data awal Gonka memberikan koordinat rujukan: kurang dari setahun selepas pelancaran mainnet, jumlah kuasa penggabungan rangkaian meningkat dari 60 unit setara H100 kepada lebih daripada 10,000 unit, dengan kelajuan ini datang daripada penyambungan spontan ratusan nod bebas di seluruh dunia, bukan melalui pengagihan terpusat. Ini tidak membuktikan bahawa masalah skala telah diselesaikan, tetapi ia menunjukkan bahawa mekanisme insentif berkesan mendorong pertumbuhan awal.

V. Masalah jendela masa

Secara sejarah, kuasa infrastruktur seringkali berkonvergen pantas pada peringkat awal—begitu juga pada era keretapi, era internet, dan era internet mudah alih. Setiap kali, ada yang berjaya menemui ruang untuk masuk sebelum standard tetap, dan ada yang baru sedar bahawa peluang untuk terlibat telah menyempit ketat selepas proses pemusatan selesai.

Infrastruktur pengiraan AI saat ini berada pada tahap mana? Dari belanjawan modal yang dijangka sebanyak US$570.8 bilion oleh empat pembekal awan utama pada 2026, pengumpulan sedang dipercepat; tetapi dari pola penggunaan sebenar pembangun, terdapat banyak sumber yang belum diintegrasikan secara berkesan di sisi penawaran. Jurang ini adalah ruang struktur di mana rangkaian terpusat boleh wujud.

Daniil merujuk kepada perbandingan dalam ucapan beliau: selepas gelembung internet pada tahun 2000 meletus, yang tinggal bukanlah puing-puing, tetapi rangkaian serat optik yang membentang di seluruh dunia, yang menyokong ekonomi digital selama dua dekad seterusnya. Selepas gelombang pelaburan infrastruktur AI mereda, protokol dan mekanisme insentif yang tersisa akan menjadi infrastruktur untuk siklus seterusnya—masalahnya ialah, protokol mana yang logik asasnya cukup kukuh untuk terus berfungsi di bawah tekanan.

Ini bukan masalah berkaitan dengan projek tertentu, tetapi masalah yang perlu dihadapi secara langsung oleh seluruh lanskap AI terdesentralisasi: Adakah reka bentuk tata kelola mampu benar-benar menahan erosi pengawasan titik tunggal? Adakah mekanisme insentif tetap berkesan setelah skala meningkat? Adakah desentralisasi rangkaian pengiraan sah secara serentak di tiga peringkat: pelaksanaan teknikal, penerbitan token, dan pengambilan keputusan peningkatan?

Penutup

Pengurangan harga DeepSeek telah menghidupkan semula naratif "demokratisasi AI". Tetapi, demokratisasi panggilan inferens dan demokratisasi infrastruktur pengiraan adalah dua perkara yang berbeza. Yang pertama sedang berlaku; sama ada yang kedua berlaku atau tidak, bergantung pada berapa ramai orang dalam beberapa tahun ke depan yang benar-benar memandang ini sebagai masalah kejuruteraan yang patut diselesaikan, bukan sekadar naratif yang menarik.