Model AI Cina Mengurangkan Kos, Melampaui Pesaing AS dalam Kecekapan Latihan dan Inferens

DeepSeek melatih model V3nya dengan kos kira-kira $5.58 juta. Sebagai perbandingan, pesaing AS biasanya menghabiskan puluhan hingga ratusan juta dolar untuk model tahap terkini.

Pada Mei 2026, DeepSeek secara permanen mengurangkan harga model V4-Pro sebanyak 75%. Kos input yang disimpan turun sehingga serendah RMB 0,025 per juta token.

DeepSeek bukan satu-satunya dalam perlumbaan ini ke aras terendah. Syarikat China 01.ai dilaporkan menawarkan inferens pada kira-kira 14 sen setiap juta token, menempatkan harga API China sebagai yang paling rendah di dunia.

Model AI Cina di OpenRouter telah mencapai pertumbuhan 5 kali dalam volum, didorong hampir sepenuhnya oleh kelebihan kos mereka berbanding alternatif AS.

Bagaimana mereka melakukannya

Pembangun Cina telah membina arsitektur MoE jarang yang mengurangkan pengaktifan parameter dari 671 bilion kepada hanya 37 bilion. Ini bermaksud pengurangan kos pengiraan sebanyak 90-97% pada lapisan inferens.

Di luar arsitektur, pasukan Cina telah menerima kaedah latihan presisi lebih rendah seperti FP8, yang mengurangkan permintaan komputasi bagi setiap pengiraan individu.

Model penarikan DeepSeek R1 dilatih hanya dengan $294,000, menggunakan 512 cip H800 selama 80 jam.

Lahir daripada pembatasan

Sejak 2023, kawalan eksport AS telah menghadkan akses syarikat-syarikat China kepada peranti Nvidia kelas tinggi. H100 dan generasi seterusnya secara efektif dilarang. Pembangun China telah bekerja dengan H800, cip yang dikurangkan kapasitinya untuk mematuhi peraturan eksport.

Pemain utama Cina yang merangkumi sempadan kecekapan ini termasuk Qwen milik Alibaba, Kimi milik Moonshot AI, GLM milik Zhipu AI, Doubao milik ByteDance, bersama DeepSeek.

Apa yang bermaksud ini kepada pelabur

Jika prestasi AI peringkat terdepan boleh dicapai dengan kos latihan di bawah $6 juta berbanding $100 juta ke atas, keunggulan perbelanjaan modal sekeliling pemimpin AI AS mula kelihatan lebih nipis.

Bagi ekosistem kripto dan Web3, inferens yang lebih murah secara langsung mengurangkan kos menjalankan aplikasi terdesentralisasi berkuasakan AI, rangkaian oracle, dan alat analitik atas rantai.

Pengurangan komputasi 97% yang dicapai oleh pembangun Cina melalui arsitektur MoE jarang bukan sekadar pencapaian teknikal. Mereka adalah isyarat harga, dan pasaran akhirnya mengikuti isyarat harga.