小米 MiMo API 借助工程突破將價格降低 99%

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
小米 MiMo 於 5 月 26 日將 MiMo-V2.5 API 價格削減 99%,專注於重複讀取歷史上下文的「輸入(快取命中)」成本。陸富利在一篇 5,000 字的部落格中詳細說明了六項技術指標,包括可將 KVCache 減少 70% 的 SWA 架構、雙池記憶體和 GPU SSD 快取。這些基於鏈上資料的優化措施提升了快取命中率並降低 GPU 使用量,使價格折扣成為可能,同時保持正向的毛利。

文|象先志

Lo Fuli 發了一條 X,要為小米 MiMo 的降價風波畫上句號。

5 月 26 日,小米 MiMo 官方帳號在 X 上發布公告:MiMo-V2.5 系列 API 永久降價,最高降幅 99%。所有 context 長度統一定價,Token 套餐升級 5-8 倍。

這則公告在國內 AI 圈刷了整整一週。業界第一時間的反應分為幾派。最大一派說這是「又一輪價格戰」——這兩年從智譜、DeepSeek、字節豆包到阿里通義,國產大模型輪流降價,誰都沒逃過這場內捲。

另一派則持悲觀看法:小米剛公告今年利潤腰斬,此時卻仍投入 600 億於 AI、將 API 直接砍掉九成——這是典型的「虧本搶市場」。還有觀點認為這是 DeepSeek 效應的延續——後者已將整個行業的定價基準拉至地板,不跟隨者將被淘汰。

大模型

因此,作為 MiMo 的負責人,羅福莉昨晚直接拿出了一份 5000 字的技術博客,將降價的工程賬目公開給了所有人。

Look, this is real engineering capability, not marketing.

要聽懂羅福莉在說什麼,先得明白這個 99% 到底降了什麼。

這不是全模型降價。99% 的折扣專門針對名為 Input (Cache Hit) 的定價——即「用戶在長對話中重複讀取歷史上下文」的部分。普通的新輸入(No Cache Hit)降幅小得多,模型輸出(Output)降幅最小。

如果你把模型當成一家咖啡店,這件事就容易理解了。

你點一杯半糖拿鐵,咖啡店有兩種做法:每次重新磨豆、量糖漿、倒奶,原料和人工都重複計費;但模型知道這週你每天都會喝同樣的半糖拿鐵,乾脆一次製作一大壺存入冰櫃,下次按杯舀取。MiMo 這次採用的是後者——將用戶重複讀取的部分從「現算」改為「現取」,因此這部分的實際成本接近 0,自然能提供 99% 的折扣。

要實現「現取」,技術部落格中講了六個工程,每一個都不可或缺。下面逐一拆解分析。

工程一:將模型的「記憶」壓縮至 1/7

模型在與你對話時,每個 token 都會產生一份「中間狀態」並儲存起來,供下一步使用。這稱為 KVCache——可理解為模型的「短期記憶筆記本」。每說一句話,模型都會在筆記本上記錄該句的摘要,下次直接翻閱筆記,無需重新聽取你說過的所有內容。

傳統模型每一層都進行「Full Attention」——也就是每個 token 都要查看整段對話的所有 token,筆記本越翻越厚。MiMo-V2.5-Pro 改變了架構:70 層中,60 層僅查看最近 128 個 token(SWA,Sliding Window Attention),僅有 10 層「檔案管理員」查看全部內容。

結果是 KVCache 的體積直接壓縮至 Full Attention 的 1/7,計算量同樣為 1/7。

這是降低成本的第一塊地基。打個比方,原本公司每位員工都被要求記住所有會議記錄,結果每人腦力都不夠、效率低下。新規定將 60 名員工的腦力負擔降低至 1/7,僅由 10 名檔案管理員負責全部歷史記錄——公司整體記憶能力未下降,但效率提升 7 倍。

工程二:讓 SWA 省下的空間真的能用

在架構上將筆記本壓縮到 1/7 是第一步,但要將「理論上的 1/7」真正實現為「實際的 1/7」,還有一道關卡。

傳統的 KVCache 系統是根據「最大可能用量」為所有層統一分配顯存。意思是:即使 60 層 SWA 只需要小筆記本,系統仍為所有層分配「檔案管理員的大筆記本」——SWA 省下的空間被白白預留,等於沒省。

大模型

羅福莉團隊的做法是將 KVCache 拆成兩個獨立的池子。Full Attention 的 10 層使用「大池子」,按完整長度分配;SWA 的 60 層使用「小池子」,僅按 128 個 token 的窗口分配。

舉個例子,原本公司為每位員工都發放了「可容納 100 年文件的檔案櫃」——但 60 位員工實際上只需要「可容納一週文件的小櫃子」,這些大櫃子中 99% 的空間都是空的。新做法是根據實際需求分配櫃子,結果整個辦公室能容納超過 5 倍的同事進來工作——同樣一臺 GPU 能服務的並發用戶數也增加了 5 倍。

這一步看似簡單,但若缺少它,先前 SWA 架構的優勢就等於白設計了。

工程三:讓「老用戶重複讀」真正能命中快取

筆記本壓到 1/7 + 空間真用得起,下一步要解決一個老問題:前綴緩存的命中率。

許多用戶的對話都有相同的開頭——同一段 system prompt、同一段代碼庫、同一份長文檔。系統會將這些已計算的結果儲存起來,下次匹配時直接重用。這個機制稱為前綴緩存。

但在 SWA 模式下有一個陷阱:兩條請求的 token 相同,並不等於 KV 仍然存在。可能前綴已經計算過,但 SWA 窗口外的部分早已被淘汰。如果系統仍按照「token 相同即命中」的舊規則為您重用,會讀取到無效或已被覆蓋的數據,模型效果會直接崩潰。

羅福莉團隊已將規則升級為「視窗安全長度」——僅承諾「你能完整借到的那部分」。

舉個例子,圖書館有 100 萬本書,你想借一套共三本的《三體》。舊架構會告訴你「這本書在」,你跑過去發現書架上只剩封面和第一冊,後兩冊都被借走了。這種「偽命中」讓你白跑一趟還得重新借閱。新系統的規則改為只承諾你能完整借到的部分——先給你第一冊,然後再把後兩冊調過來。

聽起來似乎更嚴格、命中率會下降,但實際上恰恰相反:由於 SWA 將 KVCache 的體積壓縮至 1/7,同樣的存儲空間能容納的內容多了好幾倍,真實命中率反而大幅提高。

羅福莉的博客中提供了線上實測數據:在主流 harness 框架下,服務端 cache 命中率平均為 93%,高頻長週期用戶可達 95% 以上。

解釋這個數字的含義:95% 的「重複讀取」請求根本無需使用 GPU 計算,直接從快取中讀取。這就是 99% 折扣的物理基礎。

工程四:將「快取」裝入 GPU 內建的 SSD

命中率提升了,下一個問題是:這些快取裝在哪裡。

顯存(GPU 上的 HBM 記憶體)昂貴且有限——一臺 H100 八卡機僅有 640GB 顯存,但 MiMo 所需儲存的 KVCache 可能高達數十 TB 級別。因此必須分層:最近使用的放顯存(L1),稍舊的放 CPU 記憶體(L2),冷資料存至分散式快取(L3)。

跟管錢一個道理。錢包裡的現金是顯存——隨用隨取但放不了多少。銀行卡餘額是 CPU 內存——取一次要 30 秒但能放很多。定期存款是 L3 分布式快取——取一次要 2 分鐘但便宜很多。

行業的常規做法是為 L3 單獨建立一套存儲集群,使用專用機型和專用機房,按月支付租金。

小米存儲團隊的做法不同。他們自研了一套稱為 GCache 的分佈式緩存,直接部署在 GPU 機器自帶的 SSD 上——與訓練任務、推理任務混佈在同一台機器中。

大模型

有人為了存儲大量數據,專門租了一個倉庫;小米發現 GPU 機器的車庫其實空著,直接把數據存了進去,省下了月租金。

額外的存儲成本為 0。

這件事的殺傷力比表面上看來更大。在常規的「AI 公司算力賬」中,存儲成本是一個固定支出項——你的模型越大、用戶越多,存儲賬單就越長。GCache 這套做法直接將這一項消除。結合 SWA 的小體積 + 93-95% 的命中率,KVCache 在 L3 的存活時間(TTL)從幾分鐘延長至幾小時甚至幾天——TTL 越長,歷史 context 的可命中窗口就越寬,緩存命中率越高,99% 那個折扣就越站得住腳。

工程五:讓命中快取的請求走最短的路

快取能存、能查,還便宜,最後一步是:如何將正確的請求路由到正確的機器上。

小米開發了一套自己的調度系統,稱為 LLM-Router,完成了三件事:

一是親和調度。相同前綴的請求路由至同一台機器,以最大化快取重用。

二是長度分桶。將短請求(0–64K)、中請求(64K–256K)、長請求(256K–1M)分配至不同的處理通道,避免短請求被長請求拖累。

三是 TTFT 優化。在等待推理的隊列中,優先調度實際計算量較小的請求(即大量命中緩存的請求)——避免它們被「全新輸入」這種高計算量請求阻塞。

例如,在常規的機場調度中,所有前往同一目的地的乘客集中到同一個候機廳,共享行李提取流程——這是親和調度。攜帶登機箱的乘客與攜帶 3 大件託運行李的乘客分走兩條安檢通道,快的不被慢的拖慢——這是長度分桶。登機時優先讓只攜帶登機箱的乘客登機,他們登機速度快,讓飛機能提早起飛——這是 TTFT 優化。

這套調度策略實測將 L2 緩存命中率提升 25%,單機輸入吞吐提升 30%,長請求 P90 延遲降低 30%。

同一台 GPU 能服務更多用戶。降價的另一半邏輯就在這裡——單位算力的有效產出更高,單位用戶成本更低。

工程六:讓模型「打字」也變快

前面五件事都在優化「讀」那一側——讓用戶重複閱讀歷史上下文的成本壓到接近 0。第六件事是優化「寫」那一側——也就是模型生成下一個 token 的過程。

傳統模型一次只能生成 1 個 token。MiMo 原生支援 3 層 MTP(Multi-Token Prediction)——一次預測接下來的 3 個 token,如果中間預測正確,直接跳過中間的計算。

舉個例子,傳統打字是一個字一個字輸入——如果你想打「今天天气」,需要按 4 次鍵。MTP 則像有自動補全功能,猜測你接下來的 1-2 個字是什麼——如果它猜對了,你就無需再按那兩次鍵。

MiMo 的 MTP 在 agentic 場景下實測:decode 前 128 個 token 加速 2.3 倍,128-256 個 token 加速 1.5 倍。

這件事的意義在於,99% 的折扣專門針對 Input(Cache Hit),但模型實際服務用戶時,input 和 output 是在同一請求中發生的——如果 output 沒有節省,整個請求的成本僅節省了一半。MTP 讓 output 的那一半也降下來,整套降價的盈利模型才得以閉環。

將六件事串成一條降本鏈:

SWA 架構 → KVCache 1/7 → 雙池真正釋放容量 → 同一台 GPU 能容納 5+ 倍併發 → 前綴快取命中率 93-95% → 95% 的請求幾乎無需運算 → GCache 讓存儲成本歸零 → 調度優先處理命中請求 → MTP 讓生成也省力 → 單位請求的 GPU 時間下降一個數量級 → 單位成本下降 95%+ → 定價降低 99%,毛利仍為正。

任何一個環節缺失,這條鏈都會在某一節斷裂。99% 的降價不是營銷數字,而是六個工程支柱疊加 + 真實線上驗證後的累積效應。

回顧業界一開始的幾種解讀,每種都有部分道理。這兩年中國大模型公司之間的價格戰是真的;小米利潤腰斬還要砸 AI 是真的;DeepSeek 把行業定價拽到地板上也是真的。

但羅福莉這次公開技術博客並詳細拆解技術細節,無疑是希望回應關於價格戰的說法,讓「技術的問題歸技術、行銷的問題歸行銷」。

她在部落格中寫道,MiMo-V2.5 系列模型的推理效率並非來自某一環節的單點突破,而是多維度協同優化的結果。Hybrid SWA 讓 prefill 與 decode 同時受益,但未經充分優化的 KVCache 實現反而會在各環節抬高成本。圍繞這一目標,MiMo 團隊系統性重構了 KVCache 管理、分級快取、前綴快取樹,攻克 SWA KVCache 核心問題,優化了調度策略及 Prefill / Decode 鏈路,並經線上真實場景檢驗,最終將其理論效率優勢真正兌現到生產環境。至此,Hybrid SWA 才發揮出在長文推理上兼具強度與效率的架構優勢。再組合 MoE 配置和多模態推理的各種優化,極大程度提高了線上推理服務的性能。

這是一套 AI 工程的系統性策略,也是行業值得共同參考借鑒的降本手段。

價格戰不需要寫部落格,工程落實才需要。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露