Model AI Tiongkok Memangkas Biaya, Mengungguli Pesaing AS dalam Efisiensi Pelatihan dan Inferensi

DeepSeek melatih model V3-nya dengan biaya sekitar $5,58 juta. Sebagai perbandingan, pesaing AS secara rutin menghabiskan puluhan hingga ratusan juta dolar untuk model tingkat terdepan.

Pada Mei 2026, DeepSeek secara permanen memangkas harga model V4-Pro sebesar 75%. Biaya input yang di-cache turun hingga sekitar RMB 0,025 per juta token.

DeepSeek tidak sendirian dalam perlombaan menuju harga terendah ini. Perusahaan Tiongkok 01.ai dilaporkan menawarkan inferensi sekitar 14 sen per juta token, menjadikan harga API Tiongkok sebagai yang terendah di dunia.

Model AI Cina di OpenRouter telah mencapai pertumbuhan volume 5 kali lipat, didorong hampir seluruhnya oleh keunggulan biaya mereka dibandingkan alternatif AS.

Bagaimana mereka melakukannya

Pengembang Tiongkok telah membangun arsitektur MoE yang jarang, mengurangi aktivasi parameter dari 671 miliar menjadi hanya 37 miliar. Itu berarti pengurangan biaya komputasi sebesar 90-97% pada lapisan inferensi.

Di luar arsitektur, tim-tim Tiongkok telah mengadopsi metode pelatihan presisi lebih rendah seperti FP8, yang mengurangi permintaan komputasi pada setiap perhitungan individu.

Model penalaran DeepSeek R1 dilatih hanya dengan biaya $294.000, menggunakan 512 chip H800 selama 80 jam.

Lahir dari pembatasan

Sejak 2023, kendali ekspor AS telah membatasi akses perusahaan-perusahaan Tiongkok terhadap perangkat keras Nvidia kelas atas. H100 dan generasi penerusnya secara efektif tidak dapat diakses. Pengembang Tiongkok telah bekerja dengan H800, chip yang diturunkan spesifikasinya untuk memenuhi aturan ekspor.

Pemain besar Tiongkok yang mencakup batas efisiensi ini meliputi Qwen dari Alibaba, Kimi dari Moonshot AI, GLM dari Zhipu AI, Doubao dari ByteDance, serta DeepSeek.

Apa artinya ini bagi para investor

Jika kinerja AI tingkat terdepan dapat dicapai dengan biaya pelatihan di bawah $6 juta daripada lebih dari $100 juta, moat pengeluaran modal di sekitar pemimpin AI AS mulai terlihat lebih tipis.

Untuk ekosistem kripto dan Web3, inferensi yang lebih murah secara langsung mengurangi biaya menjalankan aplikasi terdesentralisasi berbasis AI, jaringan oracle, dan alat analitik on-chain.

Pengurangan komputasi 97% yang dicapai oleh pengembang Tiongkok melalui arsitektur MoE jarang bukan hanya pencapaian teknis. Mereka adalah sinyal harga, dan pasar pada akhirnya mengikuti sinyal harga.