MiniMax、デコード速度が15.6倍速いM3 AIモデルをチラつかせた

腾讯、阿里巴巴、miHoYoが支援する上海のAIラボMiniMaxが、M2モデルシリーズに関する技術レポートを公開しました。その中には、1Mトークンコンテキスト処理時にM2と比較してデコード速度が15.6倍、プリフィル速度が9.7倍高速化された次世代M3モデルのヒントが含まれています。

MiniMaxが実際に構築したもの

M3のテーザーの裏側にある秘密の技術は、MiniMaxがMiniMaxスパースアテンション（MSA）と呼ぶものです。これは、GQA駆動の動的ブロック選択という技術に基づいています。MSAは、巨大なコンテキストウィンドウ内のすべての情報をモデルが注意深く処理するのではなく、特定のクエリに対して実際に重要なデータブロックを賢く選択します。その結果、出力の品質はほぼ同じまま、計算リソースが大幅に削減されます。

MiniMaxは、M3モデルがこれらの大幅な速度向上にもかかわらず、M2と同等の出力品質を維持していると主張しています。

技術レポートでは、M2、M2.5、M2.7の全ラインアップにわたるエンジニアリングの革新をカバーしています。

注目点：M3のパラメータ数、ライセンス詳細、リリース時期については、まだ一切提供されていません。

MiniMaxの拡大する足跡

2022年初に設立されたMiniMaxは、2026年1月に香港証券取引所に上場しました。その出資者は、テンセント、アリババ、そして原神を開発したmiHoYoであり、中国のテクノロジーおよびゲーム業界のエリートを代表しています。

テキストやコードを超えて、MiniMaxは動画生成用のHailuoプラットフォームを運営しています。同社によると、最新バージョンのHailuo 2.3はすでに数十億件の結果を処理しています。

暗号資産とAI投資家が注目すべき理由

分散型推論ネットワークは、レイテンシとコストによって常にボトルネックに陥っています。MSAの効率向上が1クエリあたりのリソース消費量の削減につながれば、ノード運用者は機器をアップグレードせずにより多くのリクエストに対応できるようになります。

オンチェーンデータを監視し、取引を実行し、スマートコントラクトをリアルタイムで分析するクラウドネイティブなAIエージェントは、その基盤となるモデルが情報処理を行う速度に同様に制約されます。1Mトークンのコンテキストを以前の約16倍の速度で処理できるモデルは、これまで実用的ではなかった用途を可能にします。

MiniMaxの技術と任何のブロックチェーンプラットフォームまたはデジタルトークンとの直接的な統合は確認されていません。高速なAIモデルと暗号資産アプリケーションとの関連性は、製品発表ではなく論理的な推論にすぎません。

分散型AI分野の投資家にとって、注目すべき指標はM3のリリース日ではない。MSAアーキテクチャがモデル重みとともにオープンソース化されるかどうかだ。MiniMaxがこれまでの許容的なライセンス方針を継続すれば、世界中のすべての分散型推論プロジェクトが、その効率性のベストプラクティスを無償でアップグレードできる。一方、同社がMSAを独自技術として保持すれば、競争優位性は上海に集中したままとなる。