動察 Beating の監測によると、中国の大規模モデル企業 MiniMax が、Hugging Face でネイティブなマルチモーダル混合専門家(MoE)モデル MiniMax M3 の重みをオープンソース公開しました。MiniMax M3 の総パラメータ数は 4280 億で、1トークンあたり 230 億のパラメータが活性化され、ネイティブに 100 万トークンの超長コンテキストをサポートします。デプロイ時のVRAM消費を削減するため、開発チームは MXFP8 クアンタイズ版を同時にリリースし、SGLang、vLLM、Transformers などの主要な推論フレームワークに対応しました。マルチモーダル設計では、MiniMax M3 はトレーニング後のマルチモーダルアライメントではなく、事前トレーニング段階からテキスト、画像、動画を共同でトレーニングし、ネイティブな意味的融合を実現しています。動作メカニズムでは、モデルは Thinking(思考)モードと Non-thinking(非思考)モードの2つの推論モードを提供します。Thinking モードは複雑なロジックやツールのオーガナイズに、Non-thinking モードは低遅延対話やコード生成に適しています。100万トークンの超長コンテキストを支える基盤となるのは、同時にオープンソース化された軽量アテンションカーネルライブラリ MiniMax Sparse Attention(通称 MSA)です。公式発表データによると、MSA はグループクエリアテンション(GQA)のブロック検索メカニズムを採用しており、100万トークンの極長コンテキストでの実測において、NVIDIA Blackwell(SM100)アーキテクチャに最適化された MSA オペレータは、従来のフルアテンションメカニズムと比較して、プリフィルリングで9倍以上、デコードで15倍以上の高速化を実現し、推論オーバーヘッドを大幅に削減しています。
MiniMax M3、ネイティブマルチモーダル対応と1Mコンテキスト長でオープンソース化
MarsBit共有
MiniMaxは、Hugging Face上でネイティブなマルチモーダルMoEモデルM3をオープンソース化しました。このモデルは4280億パラメータを備え、100万トークンのコンテキスト長をサポートしています。テキスト、画像、動画データをネイティブなセマンティック融合で処理可能で、MXFP8量子化バージョンも提供されており、SGLang、vLLM、Transformersと互換性があります。大規模モデルツールに対するオープンインターレストは依然として高いままです。M3はオープンソースのMiniMaxスパースアテンション(MSA)カーネルを使用しており、プリフィリングとデコードを高速化します。恐怖と欲求指数に反映される市場センチメントは、AIインフラへの信頼が高まっていることを示しています。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。