Ayon sa ME News, noong Mayo 27 (UTC+8), ay ipinahayag ni Luo Fuli, pangulo ng tim ng malalaking modelo ni Xiaomi, sa platform na X ang mekanismo ng pagbaba ng gastos pagkatapos ipatupad ang permanente pagbaba ng presyo sa API ng kanilang sariling malalaking modelo na MiMo-V2.5. Ayon kay Luo Fuli, matapos i-align ang presyo ng API sa DeepSeek, patuloy pa ring nakakamit ng kumpanya ang breakeven sa kanilang high-load inference engine. Ang pagbaba ng gastos ay pangunahing dulot ng hybrid attention architecture at optimized hierarchical KV caching. Upang matugunan ang layunin na bawasan ang gastos sa cache hit ng 99%, nag-implement ang inference framework ni Xiaomi ng hierarchical KV caching optimization para sa sliding window attention (SWA). Ang mga production test ay nagpakita na ang hierarchical optimization ay nagpataas ng token capacity ng cache hanggang 5 beses at nagbawas ng 80% sa gastos sa cache. Kasama ang teknolohiya ng cache read overlap sa pagitan ng global attention modules, mas bawasan pa ng sistema ang tunay na gastos sa cache hit. Para sa 60% hanggang 80% pagbaba sa base input at output costs, isinakop ni Luo Fuli ang 1:7 inter-layer sparsity ratio na ipinakilala sa modelo—ang ratio ng bilang ng layers sa global attention (GA) at sliding window attention (SWA) ay 1:7. Sa long-text prefill phase, ang 60 layers ng SWA ay nagcompute lamang ng lokal na sliding window, kaya ang kabuuang attention computation ng MiMo-V2.5-Pro na may 70 layers ay katumbas lamang ng isang 10-layer traditional global GQA model. Ang sobrang mababang compute load ay bumaba sa orihinal na inference cost, na nag-iwan ng 2 hanggang 3 beses na margin ng kita bago ang pagbaba ng presyo. Kaya, ang pagbaba ay isang resulta ng structural cost reduction, hindi isang loss-leading competition. Sinabi ni Luo Fuli na ang mababang gastos sa inference service ay nakakatulong sa pagpapalakas ng demand para sa terminal intelligence. Dapat iwasan ng mga kumpanya ng malalaking modelo ang walang-damdaming price war, at dapat silang magtayo ng mas mabuting algorithm at inference system na may co-design upang kontrolin ang tunay na operational cost sa ilalim ng breakeven point. (Sources: BlockBeats)
Ang MiMo-V2.5 model ng Xiaomi ay nagpapababa ng gastos gamit ang 10-Layer Equivalent Attention Calculation
KuCoinFlashI-share






Ang MiMo-V2.5 model ni Xiaomi ay nagpapababa ng gastos gamit ang isang pagkalkula ng atensyon na katumbas ng 10-layer. Ang bersyon na Pro na may 70-layer ay nagpapababa ng gastos sa cache hit ng 99% at ang gastos sa input/output ng 60-80%. Ang on-chain news ay nagpapakita na ang model ay gumagamit ng 1:7 sparsity ratio sa pagitan ng global at sliding window attention. Ang mga pagbabago sa pandaigdigang polisiya sa cryptocurrency ay maaaring makaapekto kung paano nakakaapekto ang ganitong pagpapababa ng gastos sa pag-deploy ng AI.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.