小米 MiMo API 借助工程突破將價格降低 99%

文｜象先志

Lo Fuli 發了一條 X，要為小米 MiMo 的降價風波畫上句號。

5 月 26 日，小米 MiMo 官方帳號在 X 上發布公告：MiMo-V2.5 系列 API 永久降價，最高降幅 99%。所有 context 長度統一定價，Token 套餐升級 5-8 倍。

這則公告在國內 AI 圈刷了整整一週。業界第一時間的反應分為幾派。最大一派說這是「又一輪價格戰」——這兩年從智譜、DeepSeek、字節豆包到阿里通義，國產大模型輪流降價，誰都沒逃過這場內捲。

另一派則持悲觀看法：小米剛公告今年利潤腰斬，此時卻仍投入 600 億於 AI、將 API 直接砍掉九成——這是典型的「虧本搶市場」。還有觀點認為這是 DeepSeek 效應的延續——後者已將整個行業的定價基準拉至地板，不跟隨者將被淘汰。

大模型

因此，作為 MiMo 的負責人，羅福莉昨晚直接拿出了一份 5000 字的技術博客，將降價的工程賬目公開給了所有人。

Look, this is real engineering capability, not marketing.

要聽懂羅福莉在說什麼，先得明白這個 99% 到底降了什麼。

這不是全模型降價。99% 的折扣專門針對名為 Input (Cache Hit) 的定價——即「用戶在長對話中重複讀取歷史上下文」的部分。普通的新輸入（No Cache Hit）降幅小得多，模型輸出（Output）降幅最小。

如果你把模型當成一家咖啡店，這件事就容易理解了。

你點一杯半糖拿鐵，咖啡店有兩種做法：每次重新磨豆、量糖漿、倒奶，原料和人工都重複計費；但模型知道這週你每天都會喝同樣的半糖拿鐵，乾脆一次製作一大壺存入冰櫃，下次按杯舀取。MiMo 這次採用的是後者——將用戶重複讀取的部分從「現算」改為「現取」，因此這部分的實際成本接近 0，自然能提供 99% 的折扣。

要實現「現取」，技術部落格中講了六個工程，每一個都不可或缺。下面逐一拆解分析。

工程一：將模型的「記憶」壓縮至 1/7

模型在與你對話時，每個 token 都會產生一份「中間狀態」並儲存起來，供下一步使用。這稱為 KVCache——可理解為模型的「短期記憶筆記本」。每說一句話，模型都會在筆記本上記錄該句的摘要，下次直接翻閱筆記，無需重新聽取你說過的所有內容。

傳統模型每一層都進行「Full Attention」——也就是每個 token 都要查看整段對話的所有 token，筆記本越翻越厚。MiMo-V2.5-Pro 改變了架構：70 層中，60 層僅查看最近 128 個 token（SWA，Sliding Window Attention），僅有 10 層「檔案管理員」查看全部內容。

結果是 KVCache 的體積直接壓縮至 Full Attention 的 1/7，計算量同樣為 1/7。

這是降低成本的第一塊地基。打個比方，原本公司每位員工都被要求記住所有會議記錄，結果每人腦力都不夠、效率低下。新規定將 60 名員工的腦力負擔降低至 1/7，僅由 10 名檔案管理員負責全部歷史記錄——公司整體記憶能力未下降，但效率提升 7 倍。

工程二：讓 SWA 省下的空間真的能用

在架構上將筆記本壓縮到 1/7 是第一步，但要將「理論上的 1/7」真正實現為「實際的 1/7」，還有一道關卡。

傳統的 KVCache 系統是根據「最大可能用量」為所有層統一分配顯存。意思是：即使 60 層 SWA 只需要小筆記本，系統仍為所有層分配「檔案管理員的大筆記本」——SWA 省下的空間被白白預留，等於沒省。

羅福莉團隊的做法是將 KVCache 拆成兩個獨立的池子。Full Attention 的 10 層使用「大池子」，按完整長度分配；SWA 的 60 層使用「小池子」，僅按 128 個 token 的窗口分配。

舉個例子，原本公司為每位員工都發放了「可容納 100 年文件的檔案櫃」——但 60 位員工實際上只需要「可容納一週文件的小櫃子」，這些大櫃子中 99% 的空間都是空的。新做法是根據實際需求分配櫃子，結果整個辦公室能容納超過 5 倍的同事進來工作——同樣一臺 GPU 能服務的並發用戶數也增加了 5 倍。

這一步看似簡單，但若缺少它，先前 SWA 架構的優勢就等於白設計了。

工程三：讓「老用戶重複讀」真正能命中快取

筆記本壓到 1/7 + 空間真用得起，下一步要解決一個老問題：前綴緩存的命中率。

許多用戶的對話都有相同的開頭——同一段 system prompt、同一段代碼庫、同一份長文檔。系統會將這些已計算的結果儲存起來，下次匹配時直接重用。這個機制稱為前綴緩存。

但在 SWA 模式下有一個陷阱：兩條請求的 token 相同，並不等於 KV 仍然存在。可能前綴已經計算過，但 SWA 窗口外的部分早已被淘汰。如果系統仍按照「token 相同即命中」的舊規則為您重用，會讀取到無效或已被覆蓋的數據，模型效果會直接崩潰。

羅福莉團隊已將規則升級為「視窗安全長度」——僅承諾「你能完整借到的那部分」。

舉個例子，圖書館有 100 萬本書，你想借一套共三本的《三體》。舊架構會告訴你「這本書在」，你跑過去發現書架上只剩封面和第一冊，後兩冊都被借走了。這種「偽命中」讓你白跑一趟還得重新借閱。新系統的規則改為只承諾你能完整借到的部分——先給你第一冊，然後再把後兩冊調過來。

聽起來似乎更嚴格、命中率會下降，但實際上恰恰相反：由於 SWA 將 KVCache 的體積壓縮至 1/7，同樣的存儲空間能容納的內容多了好幾倍，真實命中率反而大幅提高。

羅福莉的博客中提供了線上實測數據：在主流 harness 框架下，服務端 cache 命中率平均為 93%，高頻長週期用戶可達 95% 以上。

解釋這個數字的含義：95% 的「重複讀取」請求根本無需使用 GPU 計算，直接從快取中讀取。這就是 99% 折扣的物理基礎。

工程四：將「快取」裝入 GPU 內建的 SSD

命中率提升了，下一個問題是：這些快取裝在哪裡。

顯存（GPU 上的 HBM 記憶體）昂貴且有限——一臺 H100 八卡機僅有 640GB 顯存，但 MiMo 所需儲存的 KVCache 可能高達數十 TB 級別。因此必須分層：最近使用的放顯存（L1），稍舊的放 CPU 記憶體（L2），冷資料存至分散式快取（L3）。

跟管錢一個道理。錢包裡的現金是顯存——隨用隨取但放不了多少。銀行卡餘額是 CPU 內存——取一次要 30 秒但能放很多。定期存款是 L3 分布式快取——取一次要 2 分鐘但便宜很多。

行業的常規做法是為 L3 單獨建立一套存儲集群，使用專用機型和專用機房，按月支付租金。

小米存儲團隊的做法不同。他們自研了一套稱為 GCache 的分佈式緩存，直接部署在 GPU 機器自帶的 SSD 上——與訓練任務、推理任務混佈在同一台機器中。

大模型

有人為了存儲大量數據，專門租了一個倉庫；小米發現 GPU 機器的車庫其實空著，直接把數據存了進去，省下了月租金。

額外的存儲成本為 0。

這件事的殺傷力比表面上看來更大。在常規的「AI 公司算力賬」中，存儲成本是一個固定支出項——你的模型越大、用戶越多，存儲賬單就越長。GCache 這套做法直接將這一項消除。結合 SWA 的小體積 + 93-95% 的命中率，KVCache 在 L3 的存活時間（TTL）從幾分鐘延長至幾小時甚至幾天——TTL 越長，歷史 context 的可命中窗口就越寬，緩存命中率越高，99% 那個折扣就越站得住腳。

工程五：讓命中快取的請求走最短的路

快取能存、能查，還便宜，最後一步是：如何將正確的請求路由到正確的機器上。

小米開發了一套自己的調度系統，稱為 LLM-Router，完成了三件事：

一是親和調度。相同前綴的請求路由至同一台機器，以最大化快取重用。

二是長度分桶。將短請求（0–64K）、中請求（64K–256K）、長請求（256K–1M）分配至不同的處理通道，避免短請求被長請求拖累。

三是 TTFT 優化。在等待推理的隊列中，優先調度實際計算量較小的請求（即大量命中緩存的請求）——避免它們被「全新輸入」這種高計算量請求阻塞。

例如，在常規的機場調度中，所有前往同一目的地的乘客集中到同一個候機廳，共享行李提取流程——這是親和調度。攜帶登機箱的乘客與攜帶 3 大件託運行李的乘客分走兩條安檢通道，快的不被慢的拖慢——這是長度分桶。登機時優先讓只攜帶登機箱的乘客登機，他們登機速度快，讓飛機能提早起飛——這是 TTFT 優化。

這套調度策略實測將 L2 緩存命中率提升 25%，單機輸入吞吐提升 30%，長請求 P90 延遲降低 30%。

同一台 GPU 能服務更多用戶。降價的另一半邏輯就在這裡——單位算力的有效產出更高，單位用戶成本更低。

工程六：讓模型「打字」也變快

前面五件事都在優化「讀」那一側——讓用戶重複閱讀歷史上下文的成本壓到接近 0。第六件事是優化「寫」那一側——也就是模型生成下一個 token 的過程。

傳統模型一次只能生成 1 個 token。MiMo 原生支援 3 層 MTP（Multi-Token Prediction）——一次預測接下來的 3 個 token，如果中間預測正確，直接跳過中間的計算。

舉個例子，傳統打字是一個字一個字輸入——如果你想打「今天天气」，需要按 4 次鍵。MTP 則像有自動補全功能，猜測你接下來的 1-2 個字是什麼——如果它猜對了，你就無需再按那兩次鍵。

MiMo 的 MTP 在 agentic 場景下實測：decode 前 128 個 token 加速 2.3 倍，128-256 個 token 加速 1.5 倍。

這件事的意義在於，99% 的折扣專門針對 Input（Cache Hit），但模型實際服務用戶時，input 和 output 是在同一請求中發生的——如果 output 沒有節省，整個請求的成本僅節省了一半。MTP 讓 output 的那一半也降下來，整套降價的盈利模型才得以閉環。

將六件事串成一條降本鏈：

SWA 架構 → KVCache 1/7 → 雙池真正釋放容量 → 同一台 GPU 能容納 5+ 倍併發 → 前綴快取命中率 93-95% → 95% 的請求幾乎無需運算 → GCache 讓存儲成本歸零 → 調度優先處理命中請求 → MTP 讓生成也省力 → 單位請求的 GPU 時間下降一個數量級 → 單位成本下降 95%+ → 定價降低 99%，毛利仍為正。

任何一個環節缺失，這條鏈都會在某一節斷裂。99% 的降價不是營銷數字，而是六個工程支柱疊加 + 真實線上驗證後的累積效應。

回顧業界一開始的幾種解讀，每種都有部分道理。這兩年中國大模型公司之間的價格戰是真的；小米利潤腰斬還要砸 AI 是真的；DeepSeek 把行業定價拽到地板上也是真的。

但羅福莉這次公開技術博客並詳細拆解技術細節，無疑是希望回應關於價格戰的說法，讓「技術的問題歸技術、行銷的問題歸行銷」。

她在部落格中寫道，MiMo-V2.5 系列模型的推理效率並非來自某一環節的單點突破，而是多維度協同優化的結果。Hybrid SWA 讓 prefill 與 decode 同時受益，但未經充分優化的 KVCache 實現反而會在各環節抬高成本。圍繞這一目標，MiMo 團隊系統性重構了 KVCache 管理、分級快取、前綴快取樹，攻克 SWA KVCache 核心問題，優化了調度策略及 Prefill / Decode 鏈路，並經線上真實場景檢驗，最終將其理論效率優勢真正兌現到生產環境。至此，Hybrid SWA 才發揮出在長文推理上兼具強度與效率的架構優勢。再組合 MoE 配置和多模態推理的各種優化，極大程度提高了線上推理服務的性能。

這是一套 AI 工程的系統性策略，也是行業值得共同參考借鑒的降本手段。

價格戰不需要寫部落格，工程落實才需要。