Media asing melaporkan bahwa produsen model canggih Tiongkok baru-baru ini terus menurunkan harga API, dengan DeepSeek dan Xiaomi secara berturut-turut mengumumkan penyesuaian harga baru, sementara model baru dari laboratorium terkemuka AS justru bergerak menuju harga yang lebih tinggi. Hal ini memperlebar kesenjangan biaya inferensi antara model canggih Tiongkok dan AS.
Bagi pelanggan perusahaan, harga model terutama tercermin dalam biaya API yang dibayar per token. Setelah aplikasi terhubung ke model, input, output, dan cache hit akan menghasilkan biaya, sehingga perubahan harga satuan secara langsung memengaruhi kelayakan bisnis produk AI.
DeepSeek dan Xiaomi secara bersamaan menurunkan harga
DeepSeek pada 22 Mei mengubah diskon 75% untuk V4-Pro menjadi harga permanen. Setelah penyesuaian, harga input model adalah $0,435 per juta token, dan harga output adalah $0,87.
Xiaomi menurunkan harga API MiMo-V2.5 pada 26 Mei, di mana harga input untuk versi Pro turun menjadi 0,0036 dolar AS per juta token, dengan penurunan hingga 99% untuk beberapa proyek. Menurut paket baru Xiaomi, jumlah token yang dapat diperoleh dengan harga yang sama meningkat 5 hingga 8 kali lipat.
Di balik penurunan harga adalah optimasi inferensi
Artikel tersebut menyatakan bahwa penurunan harga kali ini bukan hanya tindakan pemasaran. Luo Fuli, kepala tim MiMo Xiaomi dan mantan pengembang inti DeepSeek, menyatakan bahwa penghematan utama berasal dari optimasi cache dan kerangka kerja inferensi. Sistem dapat memanfaatkan kembali lebih banyak informasi yang telah diproses, mengurangi perhitungan berulang, sehingga menurunkan biaya penyimpanan dan inferensi.
Menurut pernyataan mereka, optimasi terkait secara signifikan meningkatkan kapasitas pemrosesan token cache, mengurangi biaya penyimpanan dan pemrosesan secara keseluruhan sekitar 80%. Dengan harga API baru, mesin inferensi lingkungan produksi tetap dapat mencapai titik impas bahkan saat beroperasi hampir pada kapasitas penuh.
DeepSeek mengatasi hal ini dengan merampingkan biaya komputasi konteks melalui arsitektur model. Artikel tersebut menyebutkan bahwa V4 menggunakan dua mekanisme perhatian berselang-seling, yang secara signifikan mengurangi ukuran cache KV dan menurunkan biaya inferensi per token dalam skenario konteks panjang. Dengan konteks jutaan token, cache KV V4-Pro hanya sekitar sepuluh persen dari generasi sebelumnya, dan biaya inferensi per token sekitar 27% dari generasi sebelumnya.
Harga model Amerika bergerak berlawanan
Artikel tersebut menunjukkan bahwa model unggulan Amerika baru-baru ini tidak mengikuti penurunan harga. GPT-5.5 yang dirilis OpenAI pada akhir April menaikkan harga output menjadi 30 dolar AS per juta token, sekitar dua kali lipat dari generasi sebelumnya. Harga Claude Opus 4.7 dari Anthropic tetap sama, tetapi karena pembaruan tokenizer, teks yang sama mungkin menghasilkan lebih banyak token, sehingga tagihan aktual dapat meningkat hingga sekitar 35%.
Sebagai perbandingan, DeepSeek V4-Pro mendapatkan skor 80,6% pada benchmark kode SWE-Verified, mendekati 80,8% dari Claude Opus 4.6, tetapi selisih harga output mencapai puluhan kali lipat. Setelah penyesuaian harga terbaru, Xiaomi MiMo-V2.5-Pro juga mencapai harga input dan output yang sama dengan DeepSeek V4-Pro.
Artikel tersebut juga menyebutkan bahwa produsen model Tiongkok lainnya seperti MiniMax, Moonshot AI, dan Z.AI juga mempertahankan harga rendah. Menurut perbandingan dalam artikel, pada kuartal kedua 2026, perbedaan harga antara model canggih Tiongkok dan Amerika Serikat berkisar sekitar 15 hingga 30 kali; jika diskon cache dimasukkan, kesenjangan tersebut akan semakin melebar.
