MiniMaxがM3モデルを発表し、世界的な注目を集める。VercelのCEOが公に支持を表明する一方、国内コミュニティでは価格調整について議論が起きている。開発者はブラインドテストと実地テストを通じてM3の実力を検証し、そのコード生成能力がClaude Opus 4.8と同等であり、複数のベンチマークテストで世界トップ10入りを果たし、オープンソースモデル中最強であることを確認した。モデルはMiniMaxの新規Sparse Attentionアーキテクチャを採用し、100万のコンテキストにおいて計算量を従来の1/20まで削減した。MiniMaxは同時にAgent Team機能を発表し、Leader、Worker、Verifierの3種類のエージェントが協力して作業を行う。モデルの重みと完全な技術レポートは10日以内にオープンソース化され、世界中の開発者が実際のプロジェクトでテストを行う予定である。
記事執筆者、出典:新智元
新智元が報道

【新智元導読】シリコンバレーの重鎮が後押しする一方、コミュニティは大荒れ。MiniMax M3は本物の検証に耐えられるか?世界中の開発者が既に使用開始している。
最近、国内外ともに同じモデルでSNSが埋め尽くされました。
540万人のフォロワーを抱えるVercelのCEO、ギヨーム・ローシュが、非常に珍しく公に支持を表明した。
推奨されたのは、中国完全由来のモデルであるMiniMax M3です。

しかし、同じM3についても批判の声が大きく、国内コミュニティのコメント欄ではまるで大混乱のようになっている。
多くのコメントの批判は、トークンプランの価格調整に集中しています。多くの古参ユーザーが自らの権利が縮小されたと感じ、大騒ぎになっています。



一方、海外のコミュニティの雰囲気は、国内とはまったく異なります。
一部の海外開発者が、M3のアーキテクチャパラメータ、スパースアテンションメカニズム、およびトレーニングデータ規模を推測しています。
例えばX上のユーザーRohanは、価格だけを見ても意味がなく、コストも重要ではあるが、モデルがどのように誤るかやAgentシステムでの実際のパフォーマンスを知りたいと述べている。

他のユーザーはさらに直接的に、「M3がオープンソースモデルとしてOpusやGPT-5に追いついているのは素晴らしいが、こうした宣伝を信じる前に、実際に現場で失敗する姿を自分で見てみたい。」

これらの外部の評価に対し、MiniMaxの公式対応は迅速で、当日に補償方案を発表しました:既存ユーザーは従来の権利を維持し、新規ユーザーには週間制限を50%増加します。
価格の問題は解決したが、次に本質的な問題は、M3が本当に強いのか、それとも「ランキング操作」の幻覚なのかということだ。

72時間
世界中の開発者を巻き込む「ハードコアな検品」
M3の実際のパフォーマンスを検証するため、開発者のVictoria Wuは、同じプロンプト(AIに自転車に乗るカモメのアニメーションを生成させる)をM3、Sonnet 4.6、Opus 4.8にそれぞれ入力しました。
そして、3つの結果をA、B、Cとラベル付けし、ネットユーザーにどれがM3か盲猜させます。

コメント欄はほぼ一貫して、「Aはとてもスムーズで、間違いなくOpusだ」「M3はBかCだろう」。


結果が発表されました。AはM3です。


同様に、開発者JAZIIもブラインドテストレベルの対照実験を実施しました。
他の参加者は完全に同じプロンプトを使用し、HTML内でThree.jsを用いて《マイクラ》のクローンをゼロから手作業で作成しました。参加者はM3とOpus 4.8です。
M3はやや時間がかかりましたが、最終的なコード実行結果でJAZIIは「Super close」という二つの文字を出力しました。

左はM3、右はOpus 4.8です。当たっていましたか?
X上の中国語開発者「実践哥minli」は、M3のマルチモーダルおよびAgentic Coding機能を極限まで引き出し、M3を用いて「凡人修仙伝」のジェスチャー対決ゲームを実際に作成した。
このプロセスでM3は複雑な視覚的手勢を理解し、超長距離のロジックコードを構築する必要があります。一連の流れを完了させた際、トークンの消費量はClaude Sonnetの20%に過ぎません。

厳格さで知られるAI評価者トーマス・ウィーゴルドも、すぐに3000字の実測レポートを公開した。
彼はM3について、「今年測った中で最も興味深いモデルの一つだ。」と評価した。

中国のモデルがシリコンバレーに衝撃を与えたのは、半年前DeepSeek V4のリリースが最後だ。
そして今回は、MiniMax M3がもたらす衝撃がさらに立体的であるようだ。

50ページの論文を投入すると、M3が自動で分解します
他人のテストを見るだけでは物足りない。私たちは自ら手を動かし、モデルを最も試す2つの問題を選んだ。
最初の一つは、50ページに及ぶDeepSeek-V3技術レポートである。図表が豊富で、数式と疑似コードが交錯し、情報密度が最大限に高められている。

まず、M3が「底层通信与计算重叠」に関する因果技術チェーンを整理し、この論文内の最も核心的なエンジニアリングロジックを明確にできるかどうか確認する。

M3は15回思考し、19のコマンドを実行し、1つのツールを呼び出しました。

最終的に、DualPipeスケジューリング戦略の完全な実装パスを明確に分解し、論理の連鎖に断絶がありません。

上下にスワイプして表示
次にテストするのはM3のマルチモーダル能力です。
MLA構造図をアップロードし、モデルに図中の動的スケジューリングと投影プロセスが本文のどの数式に対応するかを特定させます。

M3はすぐに対応する解析を提供し、正確に命中しました。

難易度がさらに上がります。図中のどこかの線が本文の記述に隠されたより深い制約を示している場合、M3にその視覚的な位置を指摘させ、その背後にある理由を説明させます。
M3はそのMLAアーキテクチャ図に直接注釈を追加し、3つの制約を詳細に分解しました。



2時間のGTCスピーチ、M3が直接原稿を出稿
第二の問題は難易度が上がり、読むだけでなく、書くことも必要です。
今回の素材は、英語のGTCカンファレンスで行われた1時間57分の完全なキーノートスピーチであり、ライティングガイドラインと共にすべてM3に渡された。
1つのプロンプト。動画を視聴後、規範に従って3,000~40,000字の深度報道を執筆する。

1.15GBのオリジナル動画に直面した際、一般的なAIツールはほとんどがエラーを出して終了するでしょう。
しかし、MiniMax Codeシステムレベルツールボックスの支援により、M3はその場で解決策を見つけ出した——
ffmpegを呼び出して圧縮と分割を完了し、自分自身で道を切り開いた。



12段すべてを吃完した後、M3は驚異的な素材リストを提出した。
タイムスタンプは分単位で正確に記録され、画面の細部まで鮮明に捉えられます。
老黄身穿的带有鳞片纹理的黑色皮夹克、从裤兜掏出N1X芯片并高举过头顶整整15秒的特写、推上Vera Rubin真机时调侃「后面大概有2000人在拉」,全部收录在内。
老黄が突然飛び出した中国語の「太多东西了」さえ、見逃さなかった。

さらに、M3は自分自身が最も衝撃的だと考える3つのポイントを提示し、それぞれに自分の判断根拠を示した。

素材リストを確認した後、M3は筆を取った。
開幕は老黄がズボンのポケットから物を出すシーンから始め、結びは「この産業チェーンの所有者が、人からエージェントへと変わりつつある」という次元へと昇華する。
原稿3500字、40分で提出。
まだ私たちの投稿レベルには達していませんが、十分な品質の出発点を提供しています。


マルチモーダルで2時間の動画を視聴し、長いコンテキストですべての素材+執筆ガイドライン+サンプルを同じウィンドウに統合。エージェントの機能により、発生した課題に応じて対応します。
M3の三大核心能力は、このタスクにおいて完全に限界まで引き出され、いずれか一つでも欠けたら実現できない。

12のモデルの成績表、M3が全体像を作成しました
第3問は方向を変えて、長文ではなく、図の読み取り+インターネット活用+エンジニアリングを評価します。
各モデルのリリース時には必ずベンチマーク比較図が掲載されますが、形式はテーブル、棒グラフ、レーダーチャートとさまざまで、データの基準も統一されていません。
横断的に比較したい場合、1枚ずつめくって1マスずつ対応させるのが非常に苦痛です。
今回は、異なるモデルの公式ブログとサードパーティ評価プラットフォームから取得した10枚のベンチマークスクリーンショットをM3に直接渡し、彼女にすべてのチャートを自力で理解させ、オンラインで欠落データを補完し、基準を統一してインタラクティブな比較ダッシュボードを作成させる。
M3以前に、スクリーンショット内のモデル名とスコアを1枚ずつ識別してください。形式が異なるチャートには、自ら正規化処理を施してください。スクリーンショットに欠けているデータは、直接オンラインで公式ソースを検索して補ってください。

最終的に、Bloomberg Terminalスタイルのダークカラー対話型大型ディスプレイが生成されました。
12のモデル、14のベンチマークを含む、総合ランキング、レーダーチャート比較、個別棒グラフ、価格/性能散布図の4つのモジュールを一度に提供。



3つの能力を一度に最大限に引き上げる
三つの問題を解いた後、M3の能力の限界はすでに明確である。次に問題となるのは、それがどのようにしてそれを実現したかである。
答えは、前三つの核心能力が同時に整うことです:最先端のプログラミング、1Mのコンテキストウィンドウ、ネイティブなマルチモーダル。

それらの基盤は、MiniMax Sparse Attention(MSA)という新しいアテンションアーキテクチャです。
従来のアテンションメカニズムは、百万レベルのコンテキストを処理する際に計算量が指数関数的に爆発し、GPUのVRAMと計算能力が限界まで使い尽くされます。
MSAはブロックレベルのスパース方式でこのボトルネックを解消しました。
オペレータ層では、各KVデータをメモリ上で一度だけ読み取り、メモリアクセスを完全に連続させ、任何の繰り返し転送を行いません。
効果は、暴力でしか表現できない。
100万のコンテキスト規模において、M3は1トークンあたりの計算量を前世代の1/20まで削減しました。プリフィルリングは9倍以上、デコードは15倍以上高速化されました。
マルチモーダル側も同様に強力です。M3は、テキストを先に学習してから視覚モジュールを後から追加した単なる組み合わせ品ではありません。
訓練の最初のステップから、テキスト、画像、動画はすべて混ぜて投入されました。これにより、研究チームはデータパイプライン全体を再構築し、事前学習の規模を100Tレベルまで直接拡大しました。
その結果、M3はArtificial Analysis総合インテリジェンス指数で、オープンソースモデルの世界最高ランキングを獲得し、世界第7位となりました。

GPQAダイヤモンド科学推論ランキングで、M3は93.2%を記録し、世界トップ4にランクイン。Claude Opus 4.8およびOpus 4.7を上回りました。
長文推論ランキングで、M3は74.0%のスコアで上位6位にランクインし、GPT-5シリーズと並びました。
GDPval-AAの実際のタスクエージェントランキングで、M3は1670点を獲得し、世界第5位。Sonnet 4.6と6点差です。
各ランキングの評価基準は異なりますが、M3の位置は常に同じ範囲にとどまり、閉源モデルの上位グループの門限線上、オープンソースモデルの最前線に位置しています。



左右にスワイプして表示
有名なサードパーティのマルチモーダルランキングVals Indexで、M3は世界第6位にランクインしました。
これは国内のオープンソースモデルにおける最高の成績であり、オープンソースモデルの世界最高ランキングです。

全体的な感覚から見ると、M3はすでにClaude Sonnet 4.6のラインを確実に超えています。
最強のOpus 4.7やGPT-5.5とはまだ一歩及ばないが、間違いなくデスグループ入りを果たした。

エージェントが1つでは足りないなら、チームを導入しましょう
それでは、次の質問は自然です。このモデルを何で動かすのでしょうか?
前の実証では、M3がMiniMax Code上でffmpegを呼び出して動画をカットし、40分で仕上げました。
しかし、それはまだ単一のエージェントが作業しているにすぎません。今回のアップグレードで最も注目すべきは、エージェントチームです。

AIプログラミングツールを使ったことのある人は、おそらくこのような体験をしたことがあるだろう。
あなたはエージェントに7つのタスクを割り当てましたが、3つを完了した時点で停止して報告しました。「1、2、3を完了しました。継続しますか?」あるいは、途中でスタイルが急変し、前半は信頼できるエンジニアのようでしたが、後半では急に意味のないことを言い始めました。
その場合、エージェントチームは審判と選手を分離します。
リーダーは目標の理解、タスクの分解、スケジューリングを担当します。ワーカーは具体的な作業を担当し、異なるワーカーはそれぞれ異なるツールとコンテキストを持ちます。バリファイアーは検収を担当し、ワーカーと対立することを専門としています。
ワーカーが完了し、バリデーターが不備を指摘する。問題を特定して返却し、再作業を求める。バリデーターのチェックが完了すると、ワーカーは修正案をもとに再挑戦する。この対立サイクルはモデル自身が停止タイミングを判断するのではなく、下層に状態機械エンジンが制御している。

実際に体験して最も快適な点は、メッセージを送るとM3が数秒で確認を返し、同時にバックエンドで複数のワーカーが並列で動作し始めることです。
途中で「それに加えてこれも調べておいて」と新しい要望を追加すると、リーダーは即座に対応し、バックグラウンドタスクは停止することなく継続する。
まるで、あなたの微信に即返信してくれて、同時に仕事を手伝ってくれる同僚のようだ。

M3のモデル能力とMiniMax Codeのエージェントチーム——考える役と実行する役が組み合わさることで、無限の想像力が開かれた。
騒動が収まった後、皆の注目は再びM3そのものに戻った。
そして次に、最も重要なステップが来ます:その重みと完全な技術レポートが、10日以内にオープンソースになります。
そのとき、世界中の開発者が実際のプロジェクトでそれを評価します。
秒ごとにASI
⭐いいね、シェア、チェックをワンクリックで⭐
星標をつけて、新智元の速報を確実に受け取ろう!


専門家は年末到達を予測していたが、Claude Mythosは今日すでに3時間6分で走破!



