XiaomiのMiMo-V2.5モデルは、10層相当のアテンション計算でコストを削減

MEニュース：5月27日（UTC+8）、動察Beatingの監視によると、自社開発の大規模モデルMiMo-V2.5シリーズのAPIが恒久的に価格引き下げられた後、小米大規模モデルチームの責任者である羅福莉がXプラットフォームでアルゴリズムによるコスト削減メカニズムを公表した。羅福莉は、API価格をDeepSeekと統合した後も、小米の高負荷推論エンジンは損益分岐点を維持していると明かした。コスト削減の主な要因は、ハイブリッド注意機構と階層的KVキャッシュ最適化である。キャッシュヒット（Cache Hit）コストを99％削減するという設計目標に対し、小米の推論フレームワークは、スライディングウィンドウ注意（SWA）向けの階層的KVキャッシュ最適化を実現した。実際の生産テストでは、階層的最適化によりキャッシュのトークン容量が5倍に増加し、キャッシュコストが80％削減された。さらに、グローバル注意モジュール間のキャッシュ読み取り重複（Cache Read Overlap）技術を組み合わせることで、キャッシュヒットの実際のオーバーヘッドがさらに低減された。基礎的な入力・出力コストを60％～80％削減できた理由について、羅福莉はモデルに導入された1:7の層間スパース比、すなわちグローバル注意（GA）とスライディングウィンドウ注意（SWA）の層数比が1:7であることを挙げた。長文プレフィル（Prefill）段階では、60層のSWAは局所的なスライディングウィンドウのみを計算するため、70層を持つMiMo-V2.5-Proモデルの全体的な注意計算量は、10層の従来型グローバルGQAモデルと同等となった。超低計算負荷により、元々の推論コストが大幅に削減され、価格引き下げ前には2～3倍の利益余裕が確保されていた。したがって、この価格引き下げは損失を伴う競争ではなく、構造的なコスト削減の結果である。羅福莉は、低コストの推論サービスがエンドユーザーのインテリジェンス需要を刺激すると述べ、大規模モデル企業は無謀な価格戦争を避けるべきであり、アルゴリズムと推論システムの基盤的な協調設計を通じて、実際の運用コストを損益分岐点以下に抑えるべきだと強調した。（出典：BlockBeats）