Ang MiMo-V2.5 model ng Xiaomi ay nagpapababa ng gastos gamit ang 10-Layer Equivalent Attention Calculation

Ayon sa ME News, noong Mayo 27 (UTC+8), ay ipinahayag ni Luo Fuli, pangulo ng tim ng malalaking modelo ni Xiaomi, sa platform na X ang mekanismo ng pagbaba ng gastos pagkatapos ipatupad ang permanente pagbaba ng presyo sa API ng kanilang sariling malalaking modelo na MiMo-V2.5. Ayon kay Luo Fuli, matapos i-align ang presyo ng API sa DeepSeek, patuloy pa ring nakakamit ng kumpanya ang breakeven sa kanilang high-load inference engine. Ang pagbaba ng gastos ay pangunahing dulot ng hybrid attention architecture at optimized hierarchical KV caching. Upang matugunan ang layunin na bawasan ang gastos sa cache hit ng 99%, nag-implement ang inference framework ni Xiaomi ng hierarchical KV caching optimization para sa sliding window attention (SWA). Ang mga production test ay nagpakita na ang hierarchical optimization ay nagpataas ng token capacity ng cache hanggang 5 beses at nagbawas ng 80% sa gastos sa cache. Kasama ang teknolohiya ng cache read overlap sa pagitan ng global attention modules, mas bawasan pa ng sistema ang tunay na gastos sa cache hit. Para sa 60% hanggang 80% pagbaba sa base input at output costs, isinakop ni Luo Fuli ang 1:7 inter-layer sparsity ratio na ipinakilala sa modelo—ang ratio ng bilang ng layers sa global attention (GA) at sliding window attention (SWA) ay 1:7. Sa long-text prefill phase, ang 60 layers ng SWA ay nagcompute lamang ng lokal na sliding window, kaya ang kabuuang attention computation ng MiMo-V2.5-Pro na may 70 layers ay katumbas lamang ng isang 10-layer traditional global GQA model. Ang sobrang mababang compute load ay bumaba sa orihinal na inference cost, na nag-iwan ng 2 hanggang 3 beses na margin ng kita bago ang pagbaba ng presyo. Kaya, ang pagbaba ay isang resulta ng structural cost reduction, hindi isang loss-leading competition. Sinabi ni Luo Fuli na ang mababang gastos sa inference service ay nakakatulong sa pagpapalakas ng demand para sa terminal intelligence. Dapat iwasan ng mga kumpanya ng malalaking modelo ang walang-damdaming price war, at dapat silang magtayo ng mas mabuting algorithm at inference system na may co-design upang kontrolin ang tunay na operational cost sa ilalim ng breakeven point. (Sources: BlockBeats)