小米的 MiMo-V2.5 模型透過等效 10 層注意力計算降低成本

ME News 消息，5 月 27 日（UTC+8），據動察 Beating 監測，在自研大模型 MiMo-V2.5 系列實施 API 永久性降價後，小米大模型團隊負責人羅福莉在 X 平台公布了算法降本機制。羅福莉透露，在 API 價格對齊 DeepSeek 後，小米的高負載推理引擎仍能保持盈虧平衡。成本降低主要來自混合注意力架構與層次化 KV 緩存優化。針對緩存命中（Cache Hit）成本降低 99% 的設計目標，小米推理框架實現了針對滑動窗口注意力 SWA 的層次化 KV 緩存優化。生產測試顯示，層次化優化將緩存的 token 容量提升至 5 倍，降低了 80% 的緩存成本。結合全局注意力模塊之間的緩存讀取重疊（Cache Read Overlap）技術，系統進一步壓低了緩存命中的實際開銷。對於基礎輸入與輸出成本削減 60% 至 80% 的原因，羅福莉歸功於模型引入的 1:7 層間稀疏比，即全局注意力（GA）與滑動窗口注意力（SWA）的層數比為 1:7。在長文本預填充（Prefill）階段，60 層 SWA 僅計算局部滑動窗口，這使得擁有 70 層的 MiMo-V2.5-Pro 模型的整體注意力計算量，僅相當於一個 10 層的傳統全局 GQA 模型。超低計算負載降低了原始推理成本，在調價前曾為小米預留了 2 至 3 倍的利潤空間。因此，降價屬於結構性降本的體現，而非虧本競爭。羅福莉表示，低成本的推理服務有利於激發終端智能需求。大模型企業應當避免盲目的價格戰，通過算法與推理系統的底層協同設計，將實際運行開銷控制在盈虧平衡線以下。（來源：BlockBeats）