ME News 消息,5 月 27 日(UTC+8),據動察 Beating 監測,在自研大模型 MiMo-V2.5 系列實施 API 永久性降價後,小米大模型團隊負責人羅福莉在 X 平台公布了算法降本機制。羅福莉透露,在 API 價格對齊 DeepSeek 後,小米的高負載推理引擎仍能保持盈虧平衡。成本降低主要來自混合注意力架構與層次化 KV 緩存優化。針對緩存命中(Cache Hit)成本降低 99% 的設計目標,小米推理框架實現了針對滑動窗口注意力 SWA 的層次化 KV 緩存優化。生產測試顯示,層次化優化將緩存的 token 容量提升至 5 倍,降低了 80% 的緩存成本。結合全局注意力模塊之間的緩存讀取重疊(Cache Read Overlap)技術,系統進一步壓低了緩存命中的實際開銷。對於基礎輸入與輸出成本削減 60% 至 80% 的原因,羅福莉歸功於模型引入的 1:7 層間稀疏比,即全局注意力(GA)與滑動窗口注意力(SWA)的層數比為 1:7。在長文本預填充(Prefill)階段,60 層 SWA 僅計算局部滑動窗口,這使得擁有 70 層的 MiMo-V2.5-Pro 模型的整體注意力計算量,僅相當於一個 10 層的傳統全局 GQA 模型。超低計算負載降低了原始推理成本,在調價前曾為小米預留了 2 至 3 倍的利潤空間。因此,降價屬於結構性降本的體現,而非虧本競爭。羅福莉表示,低成本的推理服務有利於激發終端智能需求。大模型企業應當避免盲目的價格戰,通過算法與推理系統的底層協同設計,將實際運行開銷控制在盈虧平衡線以下。(來源:BlockBeats)
小米的 MiMo-V2.5 模型透過等效 10 層注意力計算降低成本
KuCoinFlash分享






小米的 MiMo-V2.5 模型透過等效 10 層注意力計算大幅降低成本。70 層 Pro 版本將快取命中成本降低 99%,輸入/輸出成本降低 60-80%。鏈上新聞顯示,該模型在全局注意力與滑動窗口注意力之間採用 1:7 的稀疏比。全球加密貨幣政策的轉變可能影響此類效率提升對 AI 部署的影響。
來源:顯示原文
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。
虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款和風險披露 。