Ipinakilala ng Xiaomi ang MiMo-V2.5-Pro-UltraSpeed, na isang accelerated inference version ng kanilang flagship model na may trilyon na parameter. Sinasabi ng kumpanya na ang bagong bersyon ay nakakamit na higit sa 1,000 token bawat segundo sa isang standard server na may 8 na generic GPU, na may demo peak na malapit sa 1,200 token.
Ang pagkakataong ito ay hindi nakatuon sa bagong modelo mismo, kundi sa pagpapabilis ng pagpapatakbo. Sa halip na magdepende sa mga natatanging chip, pinapahalagahan ni Xiaomi ang paggamit ng pangkalahatang hardware at pagpapabilis sa pamamagitan ng pag-optimize sa software at model side. Ibig sabihin nito, maaaring bumaba pa ang hadlang sa mabilis na pag-deploy ng malalaking modelo.
Dalawang teknolohiya ang nagpapabilis
Ang Xiaomi ay gumamit ng dalawang pangunahing teknolohiya sa pagkakataong ito. Ang unang teknolohiya ay ang FP4 quantization. Pinapaliit ng kumpanya ang mga ekspertong layer na kumakatawan sa pangunahing sukat ng mga parameter sa 4-bit precision, habang pinapanatili ang mas mataas na precision sa mga natitirang bahagi. Ang gawaing ito ay nakakabawas sa paggamit ng VRAM at presyur sa bandwidth, na nagpapabilis sa pagpapatakbo.
Ang pangalawang bagay ay ang DFlash speculative decoding. Ang tradisyonal na speculative decoding ay karaniwang nagsisimula sa pagpapalaya ng kaunting token ng isang maliit na modelo, na sinusundan ng pagpapatotoo ng paralelo ng malaking modelo. Ang DFlash, sa halip, ay nag-uugnay ng buong bloke ng token nang isang beses, at ipinapasa ito sa pangunahing modelo para sa pagpapatotoo. Sa mga code task, ang pangunahing modelo ay nakakatanggap ng 6.3 mula sa 8 na candidate token bawat round.
Nilagyan ni Xiaomi at ang kanilang kasamahan sa pag-iisip, TileRT, ng pagpapabuti sa proseso ng pagpapatupad. Ang kanilang ideya ay panatilihin ang proseso ng pagkalkula sa loob ng GPU, upang mabawasan ang karagdagang gastos mula sa pagpapagana ng bawat operator.
Comparison ng mga pangunahing model speed
Ayon sa datos na binanggit ng Artificial Analysis, ang karaniwang output speed ng mga pangkalahatang modelo ay mas mababa kaysa sa antas na ito. Ang ulat ay nagpapahiwatig na ang karaniwang interactive speed ng GPT series ay humigit-kumulang 68 token bawat segundo, ang Claude Opus 4.6 ay humigit-kumulang 71 token bawat segundo, at ang Gemini Flash ay humigit-kumulang 192 token bawat segundo.
Binanggit din ng ulat na ang mga kumpanya tulad ng Cerebras at Groq ay mahabang panahon ay naglalayon sa mataas na throughput inference at nagtataguyod ng bilis sa pamamagitan ng kanilang sariling arkitektura ng chip. Sa kabilang banda, ang Xiaomi ay nakamit ang resultang ito sa isang pangkalahatang GPU node, na nagpapakita ng pagtaas ng performance dahil sa software optimization.
Ipinagmamalaki ang limitadong pagsubok noong June 9
Sinabi ng Xiaomi na ang UltraSpeed ay nagpapabilis sa orihinal na MiMo-V2.5-Pro, hindi sa simplifikadong lightweight na modelo. Ang modelo ay dating inilarawan na may performance na malapit sa antas ng Claude Opus sa code benchmarks.
Ang kompanya ay planong buksan ang limitadong API trial mula June 9 hanggang June 23, na may application-based access, kung saan ang mga enterprise user at propesyonal na developer ay makakakuha ng prioridad. Sa pananalapi, ang presyo ng UltraSpeed version ay halos 3 beses ang halaga ng standard MiMo rate, ngunit ang bilis ng pagbuo ay maaaring tumaas hanggang 10 beses.
Karagdagang impormasyon: Sinabi ni Xiaomi na ang checkpoint model na gumagamit ng FP4 at DFlash ay nasa Hugging Face na open source para sa pagsubok ng komunidad.
