MiniMax、MSAスパースアテンション手法とMiniMax-M3モデルを発表

iconKuCoinFlash
共有
AI summary icon概要
ME AI メッセージ、MiniMax が Grouped Query Attention 上に構築されたスパースアテンション手法 MSA(MiniMax Sparse Attention)をリリースしました。MSA はアテンションをインデックスブランチとメインブランチに分解します:インデックスブランチはブロック単位(デフォルト 128 トークン)で各 GQA グループに対して 16 個のトークンブロックを選択(固定予算:2048 個のキー・バリュートークン)、メインブランチはこれらのブロック上で正確な softmax アテンションを実行します。MSA は 109B パラメータの MoE モデルで訓練され、NVIDIA SM100 GPU 向けの推論カーネル `fmha_sm100`(MIT ライセンス、BF16/FP8/NVFP4/FP4 をサポート)をオープンソース化し、プロダクションモデル MiniMax-M3 を公開しました。MSA-PT は MMLU、GSM8K、HumanEval、RULER-8K、RULER-32K でそれぞれ 67.2、77.7、64.0、84.2、77.5 のスコアを達成し、フルアテンションベースラインと同等の性能を発揮します。128K のコンテキスト長では、exp-free Top-k 選択が `torch.topk` より 5.1 倍高速です。(出典:AiHot)
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。