小米は、兆パラメータのフラッグシップモデルの高速推論バージョンであるMiMo-V2.5-Pro-UltraSpeedを発表しました。同社によると、新バージョンは8枚の汎用GPUで構成される標準サーバー上で、推論速度が毎秒1000トークンを超え、ピーク値は約1200トークンに達しました。
今回の更新の焦点は新しいモデル自体ではなく、推論効率にあります。専用チップに依存するソリューションと比較して、小米は今回は汎用ハードウェアを使用し、ソフトウェアとモデル側の最適化によって高速化を実現したことを強調しています。これは、大規模モデルを高速にデプロイするための障壁がさらに低下する可能性を示しています。
二つの技術がスピードアップを推進
小米は今回、主に2つの技術を採用しました。1つ目はFP4量子化です。同社は、モデルの主要なパラメータ規模を占めるエキスパート層を4ビット精度に圧縮し、その他の部分は依然として高精度のまま維持しています。これにより、VRAMの使用量と帯域幅への負荷が削減され、推論速度が向上します。
第二はDFlash推測デコードです。従来の推測デコードでは、まず小さなモデルが少数のトークンを予測し、その後大規模モデルが並列で検証します。DFlashでは、一度に全体のトークンブロックを提案し、メインモデルが検証します。コードタスクでは、メインモデルは1ラウンドあたりの候補トークン8個のうち平均6.3個を受け入れます。
小米と推論パートナーのTileRTは、実行プロセスを最適化しました。そのアプローチは、計算プロセスをGPU内部に常駐させ、オペレーターの逐次起動に伴う追加オーバーヘッドを削減することです。
主要モデルの速度比較
記事で引用されたArtificial Analysisのデータによると、現在の主要な汎用モデルの出力速度は一般的にこのレベルを下回っている。GPTシリーズの一般的なインタラクション速度は約毎秒68トークン、Claude Opus 4.6は約毎秒71トークン、Gemini Flashは約毎秒192トークンである。
報道によると、CerebrasやGroqなどの企業は長年にわたり高スループット推論に注力し、独自のチップアーキテクチャを利用して速度を向上させてきた。一方で、小米は今回の結果を汎用GPUノード上で達成し、ソフトウェア最適化によるパフォーマンス向上を強調している。
6月9日に限定試用を開始
小米は、UltraSpeedが簡略化された軽量モデルではなく、オリジナルのMiMo-V2.5-Proを加速していることを示した。このモデルは、以前のコードベンチマークでClaude Opusに近いパフォーマンスを示したと評価されていた。
当社は6月9日から6月23日まで、限定的なAPIトライアルを申請制で提供します。企業ユーザーおよびプロフェッショナル開発者が優先的に参加できます。価格面では、UltraSpeedバージョンの料金は標準的なMiMo料金の約3倍ですが、生成速度は約10倍に向上します。
追加情報:小米は、FP4とDFlashを採用したチェックポイントモデルをHugging Faceでオープンソース化し、コミュニティによるテストを提供していると述べています。
