Media asing melaporkan bahawa pembuat model canggih China baru-baru ini terus menurunkan harga API, dengan DeepSeek dan Xiaomi mengumumkan penyesuaian harga baru, manakala model terkini dari laboratorium terkemuka Amerika Serikat bergerak ke arah harga yang lebih tinggi. Ini memperluas jurang kos inferens antara model canggih China dan Amerika Serikat.
Bagi pelanggan korporat, harga model terutama ditunjukkan melalui kos API yang dikenakan berdasarkan token. Selepas aplikasi menyambung ke model, input, output, dan kejayaan cache akan menghasilkan kos, oleh itu perubahan harga unit secara langsung mempengaruhi kelayakan perniagaan produk AI.
DeepSeek dan Xiaomi menurunkan harga secara serentak
DeepSeek pada 22 Mei menukar diskaun 75% sebelum ini untuk V4-Pro menjadi harga jangka panjang. Selepas penyesuaian, harga input model ialah $0.435 setiap juta token, dan harga output ialah $0.87.
Xiaomi menurunkan harga API MiMo-V2.5 pada 26 Mei, di mana harga masukan kejadian cache versi Pro turun menjadi US$0.0036 per juta token, dengan penurunan hingga 99% untuk beberapa projek. Mengikut paket baharu Xiaomi, jumlah token yang boleh diperoleh dengan harga yang sama meningkat sebanyak 5 hingga 8 kali ganda.
Di sebalik penurunan harga ialah pengoptimuman inferens
Artikel tersebut menyatakan bahawa penurunan harga ini bukan sekadar tindakan pemasaran. Luo Fuli, ketua pasukan MiMo Xiaomi dan bekas pembangun utama DeepSeek, menyatakan bahawa penghematan utama datang daripada pengoptimuman cache dan kerangka inferens. Sistem boleh semula guna lebih banyak maklumat yang telah diproses, mengurangkan pengiraan berulang, dan dengan itu menurunkan kos penyimpanan dan inferens.
Menurut pernyataan mereka, pengoptimuman berkaitan meningkatkan kapasiti pemprosesan token cache secara ketara, dengan kos penyimpanan dan pemprosesan keseluruhan berkurang sekitar 80%. Dengan harga API baharu, enjin inferens dalam persekitaran pengeluaran masih boleh mencapai titik impas apabila beroperasi hampir pada kapasiti penuh.
Pendekatan DeepSeek adalah dengan mengompres kos pengiraan konteks melalui arsitektur model. Artikel tersebut menyatakan bahawa V4 menggunakan dua jenis mekanisme perhatian berselang-seli, yang secara signifikan mengurangkan saiz cache KV dalam skenario konteks panjang serta menurunkan kos pengiraan satu token. Dengan pengiraan konteks sebanyak satu juta token, cache KV V4-Pro hanyalah sekitar sepuluh peratus sahaja berbanding generasi sebelumnya, dan kos pengiraan satu token kira-kira 27% berbanding generasi sebelumnya.
Harga model Amerika bergerak berlawanan
Artikel tersebut menunjukkan bahawa model terkemuka Amerika tidak mengikuti penurunan harga baru-baru ini. GPT-5.5 yang dilancarkan oleh OpenAI pada akhir April menaikkan harga output kepada US$30 per juta token, hampir dua kali ganda model sebelumnya. Harga Claude Opus 4.7 daripada Anthropic kekal tidak berubah, tetapi kerana kemas kini tokenizer, teks yang sama mungkin menghasilkan lebih banyak token, sehingga bil sebenar boleh meningkat sehingga 35%.
Sebagai perbandingan, DeepSeek V4-Pro mendapat skor 80,6% pada piawaian kod SWE-Verified, hampir sama dengan 80,8% Claude Opus 4.6, tetapi perbezaan harga output mencapai puluhan kali ganda. Xiaomi MiMo-V2.5-Pro setelah penyesuaian harga terkini, juga mencapai harga input dan output yang sama dengan DeepSeek V4-Pro.
Artikel tersebut juga menyebut bahawa pembuat model China seperti MiniMax, Moonshot AI, dan Z.AI juga mengekalkan harga yang rendah. Menurut perbandingan dalam artikel, pada suku kedua tahun 2026, perbezaan harga antara model terkini China dan Amerika Syarikat kira-kira antara 15 hingga 30 kali ganda; jika disertakan diskaun cache, jurang ini akan semakin melebar.
