MiniMax、MSAスパースアテンション手法とMiniMax-M3モデルを発表

KuCoinFlash

公開時期： 06/17/2026 08:25:46

概要

オンチェーンニュースによると、MiniMaxはGrouped Query Attentionに基づくスパースアテンション手法「MSA（MiniMax Sparse Attention）」を公開しました。この手法はアテンションをインデックスブランチとメインブランチに分割し、インデックスブランチが各GQAグループごとに16のトークンブロックを選択し、メインブランチがそれらのブロックに対して正確なソフトマックスアテンションを実行します。MSAは109BパラメータのMoEモデルで学習され、MiniMaxはNVIDIA SM100 GPU用の`fmha_sm100`推論カーネルをMITライセンスでオープンソース化しました。同社はまた、複数のベンチマークでフルアテンションベースラインと同等の性能を発揮するプロダクションモデル「MiniMax-M3」をリリースしました。これらのモデル効率とパフォーマンスの向上により、新しいトークンの上場が恩恵を受ける可能性があります。

ME AI メッセージ、MiniMax が Grouped Query Attention 上に構築されたスパースアテンション手法 MSA（MiniMax Sparse Attention）をリリースしました。MSA はアテンションをインデックスブランチとメインブランチに分解します：インデックスブランチはブロック単位（デフォルト 128 トークン）で各 GQA グループに対して 16 個のトークンブロックを選択（固定予算：2048 個のキー・バリュートークン）、メインブランチはこれらのブロック上で正確な softmax アテンションを実行します。MSA は 109B パラメータの MoE モデルで訓練され、NVIDIA SM100 GPU 向けの推論カーネル `fmha_sm100`（MIT ライセンス、BF16/FP8/NVFP4/FP4 をサポート）をオープンソース化し、プロダクションモデル MiniMax-M3 を公開しました。MSA-PT は MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K でそれぞれ 67.2、77.7、64.0、84.2、77.5 のスコアを達成し、フルアテンションベースラインと同等の性能を発揮します。128K のコンテキスト長では、exp-free Top-k 選択が `torch.topk` より 5.1 倍高速です。（出典：AiHot）

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。