Ipinakilala ni Xiaomi ang MiMo na may accelerated version na may bilis na 1000+ token/sec

icon币界网
I-share
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconSummary

expand icon
Lumabas ng Xiaomi ang isang bagong modelo na handa sa pag-list ng token, ang MiMo-V2.5-Pro-UltraSpeed, na may higit sa 1000 na token bawat segundo sa mga karaniwang server. Gumagamit ang modelo ng FP4 quantization at DFlash decoding upang pabilisin ang bilis nang walang custom chips. Ang TileRT optimization ay nagpapababa sa GPU overhead. Mas mabilis ito kaysa sa GPT, Claude Opus, at Gemini Flash. Magsisimula ang API access noong June 9. Tatlo beses ito kongkretong mas mahal ngunit sampung beses mas mabilis. Ang mga checkpoint ng FP4 at DFlash ay open-sourced. Ang balita ng SEC ay nananatiling pangunahing pag-aalala para sa mga token project.
Binibigyang-diin ng CoinDesk:

Ipinakilala ng Xiaomi ang MiMo-V2.5-Pro-UltraSpeed, na isang accelerated inference version ng kanilang flagship model na may trilyon na parameter. Sinasabi ng kumpanya na ang bagong bersyon ay nakakamit na higit sa 1,000 token bawat segundo sa isang standard server na may 8 na generic GPU, na may demo peak na malapit sa 1,200 token.

Ang pagkakataong ito ay hindi nakatuon sa bagong modelo mismo, kundi sa pagpapabilis ng pagpapatakbo. Sa halip na magdepende sa mga natatanging chip, pinapahalagahan ni Xiaomi ang paggamit ng pangkalahatang hardware at pagpapabilis sa pamamagitan ng pag-optimize sa software at model side. Ibig sabihin nito, maaaring bumaba pa ang hadlang sa mabilis na pag-deploy ng malalaking modelo.

Dalawang teknolohiya ang nagpapabilis

Ang Xiaomi ay gumamit ng dalawang pangunahing teknolohiya sa pagkakataong ito. Ang unang teknolohiya ay ang FP4 quantization. Pinapaliit ng kumpanya ang mga ekspertong layer na kumakatawan sa pangunahing sukat ng mga parameter sa 4-bit precision, habang pinapanatili ang mas mataas na precision sa mga natitirang bahagi. Ang gawaing ito ay nakakabawas sa paggamit ng VRAM at presyur sa bandwidth, na nagpapabilis sa pagpapatakbo.

Ang pangalawang bagay ay ang DFlash speculative decoding. Ang tradisyonal na speculative decoding ay karaniwang nagsisimula sa pagpapalaya ng kaunting token ng isang maliit na modelo, na sinusundan ng pagpapatotoo ng paralelo ng malaking modelo. Ang DFlash, sa halip, ay nag-uugnay ng buong bloke ng token nang isang beses, at ipinapasa ito sa pangunahing modelo para sa pagpapatotoo. Sa mga code task, ang pangunahing modelo ay nakakatanggap ng 6.3 mula sa 8 na candidate token bawat round.

Nilagyan ni Xiaomi at ang kanilang kasamahan sa pag-iisip, TileRT, ng pagpapabuti sa proseso ng pagpapatupad. Ang kanilang ideya ay panatilihin ang proseso ng pagkalkula sa loob ng GPU, upang mabawasan ang karagdagang gastos mula sa pagpapagana ng bawat operator.

Comparison ng mga pangunahing model speed

Ayon sa datos na binanggit ng Artificial Analysis, ang karaniwang output speed ng mga pangkalahatang modelo ay mas mababa kaysa sa antas na ito. Ang ulat ay nagpapahiwatig na ang karaniwang interactive speed ng GPT series ay humigit-kumulang 68 token bawat segundo, ang Claude Opus 4.6 ay humigit-kumulang 71 token bawat segundo, at ang Gemini Flash ay humigit-kumulang 192 token bawat segundo.

Binanggit din ng ulat na ang mga kumpanya tulad ng Cerebras at Groq ay mahabang panahon ay naglalayon sa mataas na throughput inference at nagtataguyod ng bilis sa pamamagitan ng kanilang sariling arkitektura ng chip. Sa kabilang banda, ang Xiaomi ay nakamit ang resultang ito sa isang pangkalahatang GPU node, na nagpapakita ng pagtaas ng performance dahil sa software optimization.

Ipinagmamalaki ang limitadong pagsubok noong June 9

Sinabi ng Xiaomi na ang UltraSpeed ay nagpapabilis sa orihinal na MiMo-V2.5-Pro, hindi sa simplifikadong lightweight na modelo. Ang modelo ay dating inilarawan na may performance na malapit sa antas ng Claude Opus sa code benchmarks.

Ang kompanya ay planong buksan ang limitadong API trial mula June 9 hanggang June 23, na may application-based access, kung saan ang mga enterprise user at propesyonal na developer ay makakakuha ng prioridad. Sa pananalapi, ang presyo ng UltraSpeed version ay halos 3 beses ang halaga ng standard MiMo rate, ngunit ang bilis ng pagbuo ay maaaring tumaas hanggang 10 beses.

Karagdagang impormasyon: Sinabi ni Xiaomi na ang checkpoint model na gumagamit ng FP4 at DFlash ay nasa Hugging Face na open source para sa pagsubok ng komunidad.

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.