文 | 象先志
ロ・フリはXに投稿し、小米MiMoの値下げ騒動にピリオドを打つとした。
5月26日、小米MiMoの公式アカウントがX上で公告を発表:MiMo-V2.5シリーズAPIが永久値下げ、最大99%の引き下げ。すべてのコンテキスト長が統一価格となり、トークンパッケージは5〜8倍にアップグレードされます。
この公告は国内のAI業界で一週間中話題になった。業界の最初の反応はいくつかの派閥に分かれた。最大の派閥はこれを「また一つの価格戦争」と言い、ここ2年間、智谱、DeepSeek、字節のDouBao、アリババの通義に至るまで、国内の大規模モデルが次々と価格を引き下げ、誰もが競争に巻き込まれていると述べた。
一方は悲観的に見ると:小米は今年の利益が半減したと発表したばかりなのに、AIに600億元を投じ、APIを9割も削減するとは、典型的な「損をしてでも市場を奪う」戦略だ。また、これはDeepSeekの影響が続いているとも言われている——DeepSeekは業界全体の価格基準を床まで引き下げ、それに追随しない企業は淘汰されるという状況だ。

したがって、MiMoの責任者として、ロ・フリは昨夜、5000字の技術ブログを直接公開し、値下げの工学的帳簿をすべての人に開示した。
見てください、これはマーケティング手段ではなく、本当のエンジニアリング能力です。
ロ・フリが何を言っているか理解するには、この99%が何を下げたのかをまず理解する必要がある。
これは全体のモデル価格引き下げではありません。99%の割引は「Input (Cache Hit)」という料金プランに限定されており、これは「ユーザーが長期間の会話で過去のコンテキストを繰り返し読み込む」部分を指します。通常の新規入力(No Cache Hit)の割引ははるかに小さく、モデル出力(Output)の割引は最も小さいです。
モデルをカフェに例えると、このことが理解しやすくなります。
あなたはハーフシュガーのラテを注文します。カフェには二つの方法があります:毎回豆を新しく挽き、シロップを注ぎ、牛乳を注いで、その都度原料と人件費がかかります。しかし、モデルは今週あなたが毎日同じハーフシュガーのラテを飲むことを知っているため、一度に大量に作って冷蔵庫に保存し、次回は一杯分をすくい出すようにしています。MiMoは今回、後者のアプローチを採用しました——ユーザーが繰り返し読み取る部分を「リアルタイムで計算」から「リアルタイムで取得」に変更したため、この部分の実際のコストはほぼ0になり、99%の割引が自然と可能になります。
「現取」を実現するには、技術ブログで述べられた6つのエンジニアリングがすべて欠かせません。以下、一つずつ詳しく見ていきましょう。
ステップ1:モデルの「メモリ」を1/7に圧縮する
モデルが会話している際、各トークンごとに「中間状態」を計算し、次のステップのために保存します。この仕組みをKVCacheと呼び、モデルの「短期記憶ノートブック」と考えることができます。一文を話すたびに、モデルはその文の要約をノートに記録し、次回は最初からすべての内容を聞き直すのではなく、ノートを直接参照します。
従来のモデルでは、各層が「フルアテンション」を実行——つまり、各トークンが対話全体のすべてのトークンを確認するため、ノートが次第に厚くなっていきます。MiMo-V2.5-Proはアーキテクチャを変更し、70層のうち60層は直近の128トークンのみを対象とする「スライディングウィンドウアテンション(SWA)」を採用し、残り10層のみが「アーカイブ管理者」として全体を確認します。
その結果、KVCacheのサイズはフルアテンションの1/7に抑えられ、計算量も1/7になりました。
これはコスト削減の第一の基盤である。たとえば、かつては会社の全従業員がすべての会議記録を覚えるよう求められていたが、その結果、誰の頭も足りず、効率も低かった。新しい規則により、60人の従業員の記憶負担を1/7に減らし、歴史全体をわずか10人のアーカイブ担当者が管理するようにした。会社全体の記憶能力は低下しなかったが、効率は7倍向上した。
ステップ2:SWAが空けたスペースを実際に利用可能にする
ノートをアーキテクチャ上1/7に圧縮することが第一歩だが、「理論上の1/7」を「実際の1/7」に実現するには、まだ一つの障壁がある。
従来のKVCacheシステムは、すべての層に対して「最大可能使用量」に基づいてメモリを均等に割り当てます。つまり、たとえ60層のSWAが小さなノートしか必要としない場合でも、システムは「档案管理者の大冊」に相当する量をすべての層に割り当てます。その結果、SWAが節約した空間は無駄に予約されたままとなり、実質的に節約されていないことになります。

ロ・フーリのチームは、KVCacheを2つの独立したプールに分割しました。Full Attentionの10層は「大プール」を使用し、フル長に応じて割り当てます。SWAの60層は「小プール」を使用し、128トークンのウィンドウのみに割り当てます。
たとえば、以前は会社が各従業員に「100年分のファイルを収納できるファイルキャビネット」を配っていたが、60人の従業員の実際の必要量は「1週間分のファイルを入れられる小さなキャビネット」だけだった。そのため、大きなキャビネットの99%の空間が空いていた。新しい方法では、実際の必要量に応じてキャビネットを分割する。その結果、オフィス全体で5倍以上の従業員を収容できるようになり、同じGPUでサービスできる並列ユーザー数も5倍に増加した。
このステップは単純に見えるが、これを省略すると、これまでのSWAアーキテクチャの利点はすべて無駄になる。
ステップ3:「既存ユーザーの繰り返し読み込み」が実際にキャッシュにヒットするようにする
ノートパソコンを1/7に圧縮+スペースを本当に有効活用、次は古い課題であるプレフィックスキャッシュのヒット率を解決する。
多くのユーザーの会話が同じ开头で始まります——同じsystem prompt、同じコードベース、同じ長文ドキュメントです。システムはこれらの結果をキャッシュし、次に一致した場合にそのまま再利用します。このメカニズムをプレフィックスキャッシュと呼びます。
しかし、SWAモードでは、2つのリクエストのトークンが同じであっても、KVが有効であるとは限りません。プレフィックスは計算済みでも、SWAウィンドウ外の部分はすでに廃棄されている可能性があります。システムが「トークンが同じならヒット」という旧ルールに従って再利用すると、無効または上書きされたデータを読み取ることになり、モデルの性能が急激に低下します。
ロ・フリチームはルールを「ウィンドウセーフレングス」にアップグレードしました——「あなたが完全に借りられる部分」のみを保証します。
たとえば、図書館に100万冊の本があり、3巻セットの『三体』をすべて借りたいとします。従来のシステムでは「この本はあります」と表示され、駆けつけてみると棚にはカバーと第1巻しかなく、残りの2巻はすでに貸し出されています。このような「偽ヒット」により、無駄な移動を余儀なくされ、再び借り直す必要があります。新しいシステムでは、完全に借りられる部分のみを保証するルールに変更されました——まず第1巻を渡し、その後残りの2巻を手配します。
厳しくなったように思え、ヒット率が下がるようですが、実際は逆です。SWAによりKVCacheのサイズが1/7に圧縮されたため、同じストレージ容量で格納できるコンテンツが数倍に増加し、実際のヒット率は大幅に向上します。
ロ・フリのブログには、オンライン実測データが掲載されています:主要なharnessフレームワーク下でのサーバーキャッシュヒット率は平均93%、高頻度で長期利用するユーザーでは95%以上に達します。
95%の「繰り返し読み取り」リクエストは、GPUを使用せずにキャッシュから直接取得されます。これが99%の割引の物理的基盤です。
ステップ4:「キャッシュ」をGPUに内蔵されたSSDに格納する
ヒット率は上がりましたが、次の問題は:これらのキャッシュはどこに格納されているかです。
VRAM(GPU上のHBMメモリ)は高価で限られている——H100の8カードマシンでさえ640GBのVRAMしかないが、MiMoが保存するKVCacheは数十TB規模になる可能性がある。したがって、階層化が必要だ:最近使用したデータはVRAM(L1)に、やや古いデータはCPUメモリ(L2)に、冷データは分散キャッシュ(L3)に保存する。
お金の管理と同じです。財布の中の現金はVRAM——いつでも使えるが、保管できる量は少ない。銀行口座の残高はCPUメモリ——引き出すのに30秒かかるが、大量に保管できる。定期預金はL3分散キャッシュ——引き出すのに2分かかるが、はるかにコストが安い。
業界の一般的な做法は、L3用に独立したストレージクラスターを構築し、専用機器と専用データセンターを用意して毎月賃料を支払うことです。
小米のストレージチームのアプローチは異なります。彼らは自社開発した分散キャッシュ「GCache」を、GPUマシンに搭載されたSSDに直接デプロイし、トレーニングタスクや推論タスクと同一マシン上で混在して実行しています。

他の企業が大量のデータを保存するために倉庫を専用で賃貸している中、小米はGPUマシンのガレージが空いていることに気づき、そのままデータを保存した。月額賃料を節約できた。
追加のストレージコストは0です。
この仕組みの影響力は表面上よりもはるかに大きい。従来の「AI企業の計算リソースコスト」では、ストレージコストは固定支出項目であり、モデルが大きくなるほど、ユーザーが増えるほど、ストレージの請求額は増える。しかし、GCacheのこのアプローチは、この項目を完全に排除している。SWAの小型化と93〜95%のヒット率と組み合わせることで、KVCacheのL3における生存時間(TTL)は数分から数時間、さらには数日まで延長される——TTLが長くなるほど、履歴コンテキストのヒット可能期間が広がり、キャッシュヒット率が向上し、99%という割引がより確実なものとなる。
ステップ5:キャッシュヒットしたリクエストを最短経路で処理する
キャッシュは保存でき、検索でき、かつ安価です。最後のステップは:正しいリクエストを正しいマシンにルーティングする方法です。
小米は独自のスケジューリングシステム「LLM-Router」を開発し、以下の3つのことを実現しました:
まず、親和スケジューリングです。プレフィックスが同じリクエストを同じサーバーにルーティングし、キャッシュの再利用を最大化します。
次に、長さによるバケット分割です。短いリクエスト(0–64K)、中程度のリクエスト(64K–256K)、長いリクエスト(256K–1M)をそれぞれ異なる処理チャネルに分けて、短いリクエストが長いリクエストの影響を受けるのを防ぎます。
三はTTFTの最適化です。推論を待つキュー内で、実際の計算量が小さいリクエスト(つまりキャッシュに多数ヒットするリクエスト)を優先的にスケジュールし、それらが「新規入力」のような計算負荷の高いリクエストによってブロックされないようにします。
例えば、通常の空港のスケジューリングでは、同じ目的地に向かうすべての乗客を同じ待合室に集め、荷物受取プロセスを共有します——これがアフィニティスケジューリングです。手荷物のみの乗客と大型チェックイン荷物を持つ乗客は、別々のセキュリティチェック通路を通ります——これは長さバケット分割です。搭乗時には手荷物のみの乗客を優先的に搭乗させ、彼らが素早く搭乗することで、飛行機の出発を早めます——これがTTFT最適化です。
このスケジューリング戦略は、L2キャッシュヒット率を25%向上させ、単一マシンの入力スループットを30%向上させ、長時間リクエストのP90レイテンシーを30%削減しました。
同じGPUでより多くのユーザーをサービスできます。価格引き下げのもう一つの理由は、単位算力の有効出力が高くなり、単位ユーザーあたりのコストが低下するからです。
ステップ6:モデルの「タイピング」速度をさらに向上させる
前の5つの項目はすべて「読む」側の最適化——ユーザーが過去のコンテキストを繰り返し読むコストをほぼゼロに抑えることです。6つ目の項目は「書く」側の最適化——つまりモデルが次のトークンを生成するプロセスです。
従来のモデルは1回の処理で1つのトークンしか生成できません。MiMoはネイティブに3層のMTP(マルチトークン予測)をサポートしており、1回の予測で次の3つのトークンを同時に予測します。途中の予測が正しければ、その計算をスキップできます。
たとえば、従来のタイピングでは1文字ずつ入力します——「今天天气」と入力したい場合、4回キーを押す必要があります。一方、MTPは次に来る1~2文字を自動で予測するようなもので、予測が当たれば、その2回のキー入力が不要になります。
MiMoのMTPをエージェントシナリオで実測したところ、最初の128トークンで2.3倍の高速化、128~256トークンで1.5倍の高速化が確認されました。
この意味は、99%の割引がInput(Cache Hit)に特化している一方で、モデルが実際のユーザーにサービスを提供する際、inputとoutputは同じリクエスト内で発生するため、outputが節約されない場合、全体のリクエストコストは半分しか削減されないということです。MTPにより、outputの半分も削減され、この一連の価格引き下げによる収益モデルが完了します。
六つのことを一つのコスト削減チェーンに繋げる:
SWAアーキテクチャ → KVCache 1/7 → ダブルプールで実質的な容量解放 → 同一GPUで5倍以上の並列処理可能 → プレフィックスキャッシュヒット率93-95% → 95%のリクエストはほぼ計算不要 → GCacheでストレージコストをゼロに → スケジューリングでヒットリクエストを優先処理 → MTPで生成も省力化 → 1リクエストあたりのGPU時間は1桁低下 → 単位コストは95%以上削減 → 定価は99%引きでも粗利は依然としてプラス。
どの环节も欠けてはならず、この連鎖はどこか一環で途絶える。99%の値下げはマーケティングの数字ではなく、6つのエンジニアリング支柱が重なり、実際のオンライン検証を経た後の累積効果である。
業界当初のいくつかの解釈を振り返ると、それぞれに部分的に道理がある。この2年間、中国の大規模モデル企業間の価格戦争は事実であり、小米の利益が半減した上でAIに投資し続けているのも事実であり、DeepSeekが業界の価格を底まで引き下げたのも事実である。
しかし、ロフリは今回、技術ブログを公開し、詳細な技術的要素を分解して明らかにすることで、価格戦争に関する主張に反論しようとしている。つまり、「技術の問題は技術に、マーケティングの問題はマーケティングに」という姿勢を示している。
彼女はブログで、MiMo-V2.5 シリーズモデルの推論効率は、ある特定の环节における単点突破によるものではなく、複数の次元が協調して最適化された結果であると記している。Hybrid SWA は prefill と decode の両方に恩恵をもたらすが、十分に最適化されていない KVCache の実装は、各环节でコストを逆に引き上げてしまう。この目標を達成するために、MiMo チームは KVCache の管理、階層的キャッシュ、プレフィックスキャッシュツリーを体系的に再構築し、SWA KVCache の核心的な課題を解決するとともに、スケジューリング戦略および Prefill/Decode パイプラインを最適化し、実際のオンライン環境での検証を経て、理論上の効率優位性を本番環境に真正に実現した。これにより、Hybrid SWA は長文推論において強度と効率の両方を兼ね備えたアーキテクチャの優位性を十分に発揮できるようになった。さらに MoE 設定とマルチモーダル推論の各種最適化を組み合わせることで、オンライン推論サービスのパフォーマンスを大幅に向上させた。
これはAIエンジニアリングの体系的なアプローチであり、業界全体が参考にすべきコスト削減手法です。
価格戦争にはブログを書く必要はないが、エンジニアリングの実現には必要だ。
