Xiaomi meluncurkan MiMo-V2.5-Pro-UltraSpeed, versi percepatan inferensi dari model unggulan berparameter triliunan. Perusahaan menyatakan bahwa versi baru ini mencapai kecepatan inferensi lebih dari 1000 token per detik pada server standar yang dilengkapi 8 GPU umum, dengan puncak demonstrasi mendekati 1200 token.
Fokus pembaruan ini bukan pada model baru itu sendiri, tetapi pada efisiensi inferensi. Berbeda dengan solusi yang bergantung pada chip khusus, Xiaomi kali ini menekankan penggunaan perangkat keras umum, serta mempercepat kinerja melalui optimasi perangkat lunak dan sisi model. Ini berarti ambang batas untuk menerapkan model besar dengan cepat kemungkinan akan semakin turun.
Dua teknologi mendorong percepatan
Xiaomi kali ini terutama menggunakan dua teknologi. Yang pertama adalah kuantisasi FP4. Perusahaan mengompres lapisan ahli yang menyumbang sebagian besar parameter model menjadi presisi 4-bit, sementara bagian lainnya tetap mempertahankan presisi tinggi. Hal ini dapat mengurangi penggunaan memori GPU dan tekanan bandwidth, sehingga meningkatkan kecepatan inferensi.
Poin kedua adalah DFlash speculative decoding. Decoding spekulatif tradisional biasanya memulai dengan model kecil yang memprediksi sejumlah kecil token, lalu model besar memverifikasi secara paralel. DFlash menggantinya dengan mengusulkan seluruh blok token sekaligus, lalu menyerahkannya kepada model utama untuk diverifikasi. Dalam tugas pemrograman, model utama rata-rata menerima 6,3 dari 8 kandidat token per siklus.
Xiaomi dan mitra inferensi TileRT juga mengoptimalkan proses eksekusi. Pendekatannya adalah menjaga proses komputasi tetap berada di dalam GPU untuk mengurangi overhead tambahan yang disebabkan oleh peluncuran operator satu per satu.
Perbandingan kecepatan model utama
Menurut data Artificial Analysis yang dikutip dalam artikel, kecepatan output model umum utama saat ini secara umum berada di bawah tingkat ini. Laporan menyebutkan bahwa kecepatan interaksi umum untuk seri GPT sekitar 68 token per detik, Claude Opus 4.6 sekitar 71 token per detik, dan Gemini Flash sekitar 192 token per detik.
Laporan tersebut juga menyebut bahwa perusahaan seperti Cerebras dan Groq telah lama fokus pada penempatan inferensi ber-throughput tinggi dan mengandalkan arsitektur chip buatan sendiri untuk meningkatkan kecepatan. Sebaliknya, Xiaomi mencapai hasil ini pada node GPU umum, menekankan peningkatan kinerja yang dihasilkan dari optimasi perangkat lunak.
Pengujian terbatas diluncurkan pada 9 Juni
Xiaomi menyatakan bahwa UltraSpeed mempercepat versi asli MiMo-V2.5-Pro, bukan model ringan yang disederhanakan. Kinerja model ini sebelumnya dalam pengujian kode digambarkan mendekati tingkat Claude Opus.
Perusahaan berencana membuka uji coba API terbatas dari 9 Juni hingga 23 Juni, dengan sistem pendaftaran, di mana pengguna perusahaan dan pengembang profesional akan mendapatkan prioritas. Dari segi harga, versi UltraSpeed harganya sekitar tiga kali lipat dari tarif MiMo standar, tetapi kecepatan generasi dapat meningkat hingga sepuluh kali lipat.
Informasi tambahan: Xiaomi menyatakan bahwa model checkpoint yang menggunakan FP4 dan DFlash telah dirilis secara terbuka di Hugging Face untuk diuji oleh komunitas.
