Xiaomi Melancarkan Versi Dipercepat MiMo dengan Kelajuan 1000+ Token/ saat

icon币界网
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Xiaomi telah melancarkan model baru yang bersedia untuk senarai token, MiMo-V2.5-Pro-UltraSpeed, dengan lebih daripada 1000 token per saat pada pelayan biasa. Model ini menggunakan kuantisasi FP4 dan penyelesaian DFlash untuk meningkatkan kelajuan tanpa cip khusus. Pengoptimuman TileRT mengurangkan beban GPU. Ia mengungguli GPT, Claude Opus, dan Gemini Flash. Akses API bermula pada 9 Jun. Model ini tiga kali lebih mahal tetapi sepuluh kali lebih pantas. Checkpoint FP4 dan DFlash telah dibuka sumber. Berita SEC masih menjadi kebimbangan utama bagi projek token.
Laporan CoinGape:

Xiaomi telah melancarkan MiMo-V2.5-Pro-UltraSpeed, versi pantas inferensi bagi model unggulan parameternya yang berbilion-bilion. Syarikat menyatakan bahawa versi baharu ini mencapai kelajuan inferensi melebihi 1000 token per saat pada pelayar standard yang dilengkapi dengan 8 GPU genap, dengan puncak demonstrasi mendekati 1200 token.

Fokus kemas kini ini bukan pada model baru itu sendiri, tetapi pada kecekapan inferens. Berbanding dengan penyelesaian yang bergantung pada cip khusus, Xiaomi kali ini menekankan penggunaan peranti generik, serta meningkatkan kelajuan melalui pengoptimuman perisian dan sisi model. Ini bermakna, rintangan untuk melancarkan model berskala besar dengan pantas mungkin semakin berkurang.

Dua teknologi mendorong peningkatan kelajuan

Xiaomi kali ini terutama menggunakan dua teknologi. Yang pertama ialah kuantisasi FP4. Syarikat mengompres lapisan pakar yang mendominasi parameter model kepada ketepatan 4-bit, sementara bahagian lain masih mengekalkan ketepatan yang lebih tinggi. Tindakan ini dapat mengurangkan penggunaan memori GPU dan tekanan bandwidth, dengan itu meningkatkan kelajuan inferens.

Yang kedua ialah DFlash speculative decoding. Decoding spekulatif tradisional biasanya bermula dengan model kecil meramal sedikit token, kemudian model besar mengesahkan secara selari. DFlash pula mengubahnya dengan mencadangkan keseluruhan blok token sekaligus, kemudian menyerahkannya kepada model utama untuk pengesahan. Dalam tugas kod, model utama mampu menerima rata-rata 6.3 daripada 8 token calon setiap pusingan.

Xiaomi dan rakan kongsi inferensinya, TileRT, juga mengoptimumkan proses pelaksanaan. Pendekatan mereka adalah mempertahankan proses pengiraan secara berterusan di dalam GPU untuk mengurangkan overheard tambahan yang disebabkan oleh pelaksanaan operator satu per satu.

Perbandingan kelajuan model utama

Menurut data yang dikutip dari Artificial Analysis, kelajuan output model umum utama semasa ini secara umum lebih rendah daripada tahap ini. Laporan tersebut menyatakan bahawa kelajuan interaksi biasa untuk siri GPT adalah sekitar 68 token per saat, Claude Opus 4.6 sekitar 71 token per saat, dan Gemini Flash sekitar 192 token per saat.

Laporan tersebut juga menyebut bahawa syarikat seperti Cerebras dan Groq telah lama membina strategi untuk inferensi berkelajuan tinggi, bergantung kepada arsitektur cip buatan sendiri untuk meningkatkan kelajuan. Sebaliknya, Xiaomi mencapai hasil ini pada nod GPU am, menekankan peningkatan prestasi yang dihasilkan daripada pengoptimuman perisian.

Penggunaan terhad terhadap 9 Jun

Xiaomi menyatakan bahawa UltraSpeed mempercepat model MiMo-V2.5-Pro asal, bukan model ringkas yang disederhanakan. Prestasi model ini sebelum ini dalam ujian kod digambarkan hampir setara dengan Claude Opus.

Perusahaan merancang untuk membuka percubaan API terhad pada 9 Jun hingga 23 Jun, dengan sistem permohonan, pengguna perniagaan dan pembangun profesional akan diberi keutamaan. Dari segi harga, versi UltraSpeed berharga kira-kira tiga kali ganda kadar MiMo standard, tetapi kelajuan penghasilan boleh meningkat sehingga sepuluh kali ganda.

Maklumat tambahan: Xiaomi menyatakan bahawa model checkpoint yang menggunakan FP4 dan DFlash telah dibuka sumber di Hugging Face untuk ujian komuniti.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.