XiaomiのMiMo-V2.5モデルは、10層相当のアテンション計算でコストを削減

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
XiaomiのMiMo-V2.5モデルは、10層相当のアテンション計算を用いてコストを大幅に削減します。70層のProバージョンは、キャッシュヒットコストを99%、入出力コストを60〜80%削減します。オンチェーンニュースによると、このモデルはグローバルアテンションとスライディングウィンドウアテンションの間に1:7のスパース比を使用しています。グローバルな暗号資産政策の変化は、こうした効率向上がAIの導入に与える影響に影響を与える可能性があります。

MEニュース:5月27日(UTC+8)、動察Beatingの監視によると、自社開発の大規模モデルMiMo-V2.5シリーズのAPIが恒久的に価格引き下げられた後、小米大規模モデルチームの責任者である羅福莉がXプラットフォームでアルゴリズムによるコスト削減メカニズムを公表した。 羅福莉は、API価格をDeepSeekと統合した後も、小米の高負荷推論エンジンは損益分岐点を維持していると明かした。コスト削減の主な要因は、ハイブリッド注意機構と階層的KVキャッシュ最適化である。 キャッシュヒット(Cache Hit)コストを99%削減するという設計目標に対し、小米の推論フレームワークは、スライディングウィンドウ注意(SWA)向けの階層的KVキャッシュ最適化を実現した。実際の生産テストでは、階層的最適化によりキャッシュのトークン容量が5倍に増加し、キャッシュコストが80%削減された。さらに、グローバル注意モジュール間のキャッシュ読み取り重複(Cache Read Overlap)技術を組み合わせることで、キャッシュヒットの実際のオーバーヘッドがさらに低減された。 基礎的な入力・出力コストを60%~80%削減できた理由について、羅福莉はモデルに導入された1:7の層間スパース比、すなわちグローバル注意(GA)とスライディングウィンドウ注意(SWA)の層数比が1:7であることを挙げた。長文プレフィル(Prefill)段階では、60層のSWAは局所的なスライディングウィンドウのみを計算するため、70層を持つMiMo-V2.5-Proモデルの全体的な注意計算量は、10層の従来型グローバルGQAモデルと同等となった。超低計算負荷により、元々の推論コストが大幅に削減され、価格引き下げ前には2~3倍の利益余裕が確保されていた。したがって、この価格引き下げは損失を伴う競争ではなく、構造的なコスト削減の結果である。 羅福莉は、低コストの推論サービスがエンドユーザーのインテリジェンス需要を刺激すると述べ、大規模モデル企業は無謀な価格戦争を避けるべきであり、アルゴリズムと推論システムの基盤的な協調設計を通じて、実際の運用コストを損益分岐点以下に抑えるべきだと強調した。(出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。