Xiaomi Meluncurkan Versi Dipercepat MiMo dengan Kecepatan 1000+ Token/Detik

icon币界网
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Xiaomi telah meluncurkan model siap daftar token baru, MiMo-V2.5-Pro-UltraSpeed, dengan kecepatan lebih dari 1000 token per detik di server standar. Model ini menggunakan kuantisasi FP4 dan decoding DFlash untuk meningkatkan kecepatan tanpa chip khusus. Optimasi TileRT mengurangi beban GPU. Model ini lebih unggul daripada GPT, Claude Opus, dan Gemini Flash. Akses API dimulai pada 9 Juni. Model ini tiga kali lebih mahal tetapi sepuluh kali lebih cepat. Checkpoint FP4 dan DFlash telah dibuka sumbernya. Berita SEC tetap menjadi perhatian utama bagi proyek token.
Berita CoinWorld:

Xiaomi meluncurkan MiMo-V2.5-Pro-UltraSpeed, versi percepatan inferensi dari model unggulan berparameter triliunan. Perusahaan menyatakan bahwa versi baru ini mencapai kecepatan inferensi lebih dari 1000 token per detik pada server standar yang dilengkapi 8 GPU umum, dengan puncak demonstrasi mendekati 1200 token.

Fokus pembaruan ini bukan pada model baru itu sendiri, tetapi pada efisiensi inferensi. Berbeda dengan solusi yang bergantung pada chip khusus, Xiaomi kali ini menekankan penggunaan perangkat keras umum, serta mempercepat kinerja melalui optimasi perangkat lunak dan sisi model. Ini berarti ambang batas untuk menerapkan model besar dengan cepat kemungkinan akan semakin turun.

Dua teknologi mendorong percepatan

Xiaomi kali ini terutama menggunakan dua teknologi. Yang pertama adalah kuantisasi FP4. Perusahaan mengompres lapisan ahli yang menyumbang sebagian besar parameter model menjadi presisi 4-bit, sementara bagian lainnya tetap mempertahankan presisi tinggi. Hal ini dapat mengurangi penggunaan memori GPU dan tekanan bandwidth, sehingga meningkatkan kecepatan inferensi.

Poin kedua adalah DFlash speculative decoding. Decoding spekulatif tradisional biasanya memulai dengan model kecil yang memprediksi sejumlah kecil token, lalu model besar memverifikasi secara paralel. DFlash menggantinya dengan mengusulkan seluruh blok token sekaligus, lalu menyerahkannya kepada model utama untuk diverifikasi. Dalam tugas pemrograman, model utama rata-rata menerima 6,3 dari 8 kandidat token per siklus.

Xiaomi dan mitra inferensi TileRT juga mengoptimalkan proses eksekusi. Pendekatannya adalah menjaga proses komputasi tetap berada di dalam GPU untuk mengurangi overhead tambahan yang disebabkan oleh peluncuran operator satu per satu.

Perbandingan kecepatan model utama

Menurut data Artificial Analysis yang dikutip dalam artikel, kecepatan output model umum utama saat ini secara umum berada di bawah tingkat ini. Laporan menyebutkan bahwa kecepatan interaksi umum untuk seri GPT sekitar 68 token per detik, Claude Opus 4.6 sekitar 71 token per detik, dan Gemini Flash sekitar 192 token per detik.

Laporan tersebut juga menyebut bahwa perusahaan seperti Cerebras dan Groq telah lama fokus pada penempatan inferensi ber-throughput tinggi dan mengandalkan arsitektur chip buatan sendiri untuk meningkatkan kecepatan. Sebaliknya, Xiaomi mencapai hasil ini pada node GPU umum, menekankan peningkatan kinerja yang dihasilkan dari optimasi perangkat lunak.

Pengujian terbatas diluncurkan pada 9 Juni

Xiaomi menyatakan bahwa UltraSpeed mempercepat versi asli MiMo-V2.5-Pro, bukan model ringan yang disederhanakan. Kinerja model ini sebelumnya dalam pengujian kode digambarkan mendekati tingkat Claude Opus.

Perusahaan berencana membuka uji coba API terbatas dari 9 Juni hingga 23 Juni, dengan sistem pendaftaran, di mana pengguna perusahaan dan pengembang profesional akan mendapatkan prioritas. Dari segi harga, versi UltraSpeed harganya sekitar tiga kali lipat dari tarif MiMo standar, tetapi kecepatan generasi dapat meningkat hingga sepuluh kali lipat.

Informasi tambahan: Xiaomi menyatakan bahwa model checkpoint yang menggunakan FP4 dan DFlash telah dirilis secara terbuka di Hugging Face untuk diuji oleh komunitas.

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.