Xiaomi telah melancarkan MiMo-V2.5-Pro-UltraSpeed, versi pantas inferensi bagi model unggulan parameternya yang berbilion-bilion. Syarikat menyatakan bahawa versi baharu ini mencapai kelajuan inferensi melebihi 1000 token per saat pada pelayar standard yang dilengkapi dengan 8 GPU genap, dengan puncak demonstrasi mendekati 1200 token.
Fokus kemas kini ini bukan pada model baru itu sendiri, tetapi pada kecekapan inferens. Berbanding dengan penyelesaian yang bergantung pada cip khusus, Xiaomi kali ini menekankan penggunaan peranti generik, serta meningkatkan kelajuan melalui pengoptimuman perisian dan sisi model. Ini bermakna, rintangan untuk melancarkan model berskala besar dengan pantas mungkin semakin berkurang.
Dua teknologi mendorong peningkatan kelajuan
Xiaomi kali ini terutama menggunakan dua teknologi. Yang pertama ialah kuantisasi FP4. Syarikat mengompres lapisan pakar yang mendominasi parameter model kepada ketepatan 4-bit, sementara bahagian lain masih mengekalkan ketepatan yang lebih tinggi. Tindakan ini dapat mengurangkan penggunaan memori GPU dan tekanan bandwidth, dengan itu meningkatkan kelajuan inferens.
Yang kedua ialah DFlash speculative decoding. Decoding spekulatif tradisional biasanya bermula dengan model kecil meramal sedikit token, kemudian model besar mengesahkan secara selari. DFlash pula mengubahnya dengan mencadangkan keseluruhan blok token sekaligus, kemudian menyerahkannya kepada model utama untuk pengesahan. Dalam tugas kod, model utama mampu menerima rata-rata 6.3 daripada 8 token calon setiap pusingan.
Xiaomi dan rakan kongsi inferensinya, TileRT, juga mengoptimumkan proses pelaksanaan. Pendekatan mereka adalah mempertahankan proses pengiraan secara berterusan di dalam GPU untuk mengurangkan overheard tambahan yang disebabkan oleh pelaksanaan operator satu per satu.
Perbandingan kelajuan model utama
Menurut data yang dikutip dari Artificial Analysis, kelajuan output model umum utama semasa ini secara umum lebih rendah daripada tahap ini. Laporan tersebut menyatakan bahawa kelajuan interaksi biasa untuk siri GPT adalah sekitar 68 token per saat, Claude Opus 4.6 sekitar 71 token per saat, dan Gemini Flash sekitar 192 token per saat.
Laporan tersebut juga menyebut bahawa syarikat seperti Cerebras dan Groq telah lama membina strategi untuk inferensi berkelajuan tinggi, bergantung kepada arsitektur cip buatan sendiri untuk meningkatkan kelajuan. Sebaliknya, Xiaomi mencapai hasil ini pada nod GPU am, menekankan peningkatan prestasi yang dihasilkan daripada pengoptimuman perisian.
Penggunaan terhad terhadap 9 Jun
Xiaomi menyatakan bahawa UltraSpeed mempercepat model MiMo-V2.5-Pro asal, bukan model ringkas yang disederhanakan. Prestasi model ini sebelum ini dalam ujian kod digambarkan hampir setara dengan Claude Opus.
Perusahaan merancang untuk membuka percubaan API terhad pada 9 Jun hingga 23 Jun, dengan sistem permohonan, pengguna perniagaan dan pembangun profesional akan diberi keutamaan. Dari segi harga, versi UltraSpeed berharga kira-kira tiga kali ganda kadar MiMo standard, tetapi kelajuan penghasilan boleh meningkat sehingga sepuluh kali ganda.
Maklumat tambahan: Xiaomi menyatakan bahawa model checkpoint yang menggunakan FP4 dan DFlash telah dibuka sumber di Hugging Face untuk ujian komuniti.
