MiniMax 發布 M3 模型引發全球關注,Vercel 執行長公開站台,但國內社區對定價調整存在爭議。開發者透過盲測與實測驗證 M3 實力,結果顯示其程式碼生成能力與 Claude Opus 4.8 相當,在多項基準測試中進入全球前十,成為最強開源模型。模型採用 MiniMax Sparse Attention 全新架構,在 100 萬上下文下計算量降至此前 1/20。MiniMax 同步推出 Agent Team 功能,由 Leader、Worker、Verifier 三類 Agent 協作作業。模型權重與完整技術報告將於十天內開源,全球開發者將進行實際專案測試。
文章作者、來源:新智元
新智元 報導

【新智元導讀】硅谷大佬站台,社區卻吵成一鍋粥。MiniMax M3 能不能經得住真刀真槍的驗貨?全球開發者已經上手了。
最近,國內外都被同一個模型刷屏了。
擁有 540 萬粉絲的 Vercel 執行長 Guillermo Rauch,極為罕見地公開站台。
他推薦的是一個完全來自中國的模型——MiniMax M3。

然而,同樣是這個 M3,吐槽的聲音也不小,許多國內社區的評論區裡直接吵成一鍋粥。
許多評論的火力都集中在 Token Plan 的價格調整上。許多老用戶覺得自己的權益縮水,鬧翻天了。



而國外社區的風格,則與國內完全不同。
一些海外開發者正在猜測 M3 的架構參數、稀疏注意力機制和訓練數據規模。
例如,X 上的網友 Rohan 表示,單看價格沒有意義,雖然成本也很重要,但他更想知道模型犯錯的方式以及在 Agent 系統裡的實際表現。

另一位網友態度更直接,他認為:「M3 作為開源模型能緊追 Opus 和 GPT-5 已經很厲害了,不過在相信這些宣傳之前,我得親眼看看它現場翻車。」

面對這些外界評價,MiniMax 官方反應很快,當天就發了補償方案:老用戶保留原有權益,新用戶週限額加贈 50%。
價格的問題已解決,接下來,最為實質的問題是:M3 到底是真強,還是「刷榜」的幻覺?

72 小時
一場席捲全球開發者的「硬核驗貨」
為驗證 M3 的真實表現,開發者 Victoria Wu 將同一個 Prompt(讓 AI 生成一隻鵜鶘騎自行車的動畫)分別輸入給 M3、Sonnet 4.6 和 Opus 4.8。
然後,將三個結果標為 A、B、C,讓網友盲猜哪一個是 M3。

評論區幾乎一面倒,「A 太絲滑了,肯定是 Opus」「M3 應該是 B 或 C 吧」。


結果揭曉。A 就是 M3。


無獨有偶,開發者 JAZII 也做了一組盲測級別的對照實驗。
他使用了完全相同的 Prompt,要求模型用 Three.js 在 HTML 中從零手搓一個《我的世界》的克隆版,參賽選手是 M3 和 Opus 4.8。
雖然 M3 耗時略長一些,但在最終的代碼運行結果上,JAZII 給出了兩個字:「Super close」。

左邊是 M3,右邊是 Opus 4.8,你猜對了嗎?
X 上的中文開發者「實踐哥minli」則將 M3 的多模態和 Agentic Coding 能力壓榨到極限,用 M3 硬生生做出了一個「凡人修仙傳」手勢對決遊戲。
在這個過程中,M3 需要理解複雜的視覺手勢,並完成超長程的邏輯代碼編寫。一氣呵成後,Token 的消耗僅為 Claude Sonnet 的 20%。

以嚴苛著稱的 AI 評測人 Thomas Wiegold,也在第一時間放出了一篇 3000 字實測報告。
他對 M3 的評價是:「這是我在今年測過最有意思的模型之一。」

上一次中國模型能引起矽谷震動,還要追溯到半年前 DeepSeek V4 的發布。
而這次,MiniMax M3 帶來的震撼似乎更加立體。

將 50 頁論文丟進去,M3 自己拆解
光看別人測不過癮。我們自己上手,專門挑了兩道最能壓榨模型的題。
第一道,是長達 50 頁的 DeepSeek-V3 技術報告。圖表密集、公式和偽代碼交織,資訊密度拉滿。

首先,讓 M3 梳理一條關於「底層通信與計算重疊」的因果技術鏈條,看它能不能把這篇論文裡最硬核的工程邏輯理清楚。

M3 全程思考了 15 次,執行了 19 條命令,調用了 1 個工具。

它最終將 DualPipe 調度策略的完整實現路徑拆解得清清楚楚,邏輯鏈條無任何斷點。

上下滑動查看
Next up is testing M3's multimodal capabilities.
上傳一張 MLA 結構圖,然後要求模型找出圖中動態調度和投影過程對應的是正文中哪幾個數學公式。

M3 很快提供了對應解析,精準命中。

難度繼續加碼。如果圖中某處連線在正文的文本描述中其實藏著更深层的隱藏約束,讓 M3 指出它在圖中的視覺位置,並解釋背後的原因。
M3 直接在該 MLA 架構圖上添加了標註,並對三條約束進行了詳細拆解。



一場 2 小時的 GTC 演講,M3 直接出稿
第二道題難度升級,不光要讀懂,還得寫出來。
這次的素材是英偉達 GTC 大會長達 1 小時 57 分鐘的完整主題演講,連同寫作規範,一股腦全甩給了 M3。
觀看影片後,依照規範撰寫一篇 3000–40000 字的深度報導。

面對 1.15GB 的原始影片,一般的 AI 工具多半只能報錯退場。
但在 MiniMax Code 系統級工具箱的加持下,M3 當場就找到了解決方案——
使用 ffmpeg 完成壓縮和分段,為自己開闢了一條可行的路徑。



吃完12段後,M3交出了一份驚豔的素材清單。
Timestamp accurate to the minute, with extremely detailed frame capture.
老黃身上那件帶鱗片紋理的黑色皮夾克、從褲兜掏出N1X芯片高舉過頭頂整整15秒的特寫、推Vera Rubin真機上台時調侃「後面大概有2000個人在拉」,全部在列。
連老黃突然冒出的那句中文「太多東西了」,它都沒有放過。

更狠的是,M3 還拋出了自己認為全场最炸的三個點,每個都有自己的判斷理由。

確認素材清單後,M3 開始動筆。
開篇從老黃掏褲兜的畫面切入,結尾升維到「這條產業鏈的主人,正在從人變成 Agent」。
初稿 3500 字,40 分鐘交卷。
雖然還達不到我們的發稿水準,但它提供了一個質量足夠高的起點。


多模態看完 2 小時影片,長上下文將全部素材+寫作規範+範文裝入同一個視窗,Agent 能力負責遇什麼解決什麼。
M3 的三大核心能力在這個任務中被徹底壓榨到極限,缺任何一項都無法完成。

12 個模型的成績單,M3 自己製作了一張全景圖
第三題換個方向,不考長文本,考讀圖+上網+搞工程。
每家模型發布時都會附上一張 benchmark 對比圖,但格式五花八門,有表格、柱狀圖、雷達圖,數據口徑也不統一。
想進行橫向對比,得自己一張張翻、一格格核對,極其痛苦。
這次直接把十張來自不同模型官方部落格和第三方評測平台的 benchmark 截圖扔給 M3,讓它自己看懂所有圖表,上網補全缺失資料,統一口徑,做成一個可互動的對比大螢幕。
M3 先逐一識別截圖中的模型名稱和分數。遇到格式不同的圖表,自行進行歸一化處理。截圖中缺失的數據,直接上網查閱官方來源補全。

最終輸出了一個 Bloomberg Terminal 風格的深色交互大螢幕。
12 個模型、14 項 benchmark,綜合排名、雷達圖對比、單項柱狀圖、價格/性能散點圖,四個模塊一次到位。



三項能力,一次拉滿
做完三道題後,M3 的能力邊界已經非常清楚了。接下來的問題在於,它是如何做到的。
答案是三項核心能力同時到位:前沿級編程、1M 上下文窗口、原生多模態。

Their foundation is a new attention architecture called MiniMax Sparse Attention (MSA).
傳統注意力機制在處理百萬級上下文時,計算量呈指數級爆炸,GPU 的顯存和算力會被榨乾。
MSA 以塊級稀疏的方式解決了這個瓶頸。
在運算子層,它讓每塊 KV 數據在內存中只讀取一次,記憶體存取完全連續,不進行任何重複搬運。
效果只能用暴力來形容。
在 100 萬上下文的恐怖規模下,M3 每個 token 的計算量被硬生生壓低至上一代的 1/20。預填充加速超過 9 倍,解碼加速超過 15 倍。
多模態這邊同樣狠厲。M3 絕非先訓練好文本再外掛一個視覺模塊的拼接貨。
從訓練的第一步開始,文本、圖片和影片就是混合在一起輸入的。為此,研究團隊重新構建了整個數據管道,並將預訓練規模直接提升至100T級別。
結果就是,M3 在 Artificial Analysis 綜合智能指數榜上,直接拿下開源模型的全球最高排名,位列全球第 7 名。

在 GPQA Diamond 科學推理榜上,M3 取得 93.2%,位列全球前四,高於 Claude Opus 4.8 和 Opus 4.7。
在長上下文推理排名中,M3 以 74.0% 的成績躋身前六,與 GPT-5 系列緊貼。
在 GDPval-AA 真實任務 Agent 榜上,M3 的 1670 分排在全球第 5 名,和 Sonnet 4.6 只差 6 分。
每張榜的評測維度不同,但 M3 的位置始終卡在同一個區間,閉源第一梯隊的門檻線上,開源模型的最前面。



左右滑動查看
在知名的第三方多模態榜單 Vals Index 上,M3 也衝到了全球第六。
這是目前國內開源模型的最佳成績,也是開源模型中的全球最高排名。

從整體感受來看,M3 已穩穩跨過 Claude Sonnet 4.6 這條線。
雖然還差一口氣才能趕上最強的 Opus 4.7 和 GPT-5.5,但它無疑已殺入死亡之組。

一個 Agent 不夠,那就上一個團隊
那接下來的問題就很自然了,這麼一個模型,拿什麼來跑它?
在前面的實測中,M3 在 MiniMax Code 上運行 ffmpeg 切割影片,40 分鐘出稿。
但那還只是單個 Agent 在工作。這次升級最值得討論的,是 Agent Team。

使用過 AI 編程工具的人大概都有過這種體驗。
你給 Agent 布置了 7 件事,它做完 3 件就停下來匯報,「我已經完成了 1、2、3,是否需要繼續?」。或者跑著跑著風格突變,前面還像個靠譜的工程師,後面忽然開始說胡話。
对此,Agent Team 的做法是將裁判和選手分開。
Leader 負責理解目標、拆分任務、調度。Worker 負責具體執行,不同 Worker 擁有不同的工具和上下文。Verifier 負責驗收,專門與 Worker 反對。
Worker 完成後,Verifier 開始挑毛病。找出問題後打回重做。Verifier 檢查完畢後,Worker 拿著修改意見重新來過。這個對抗循環不依賴模型自行判斷何時停止,底層有一套狀態機引擎在管理。

在實際體驗中,最令人滿意的一點是,你發出一條訊息後,M3 立即回覆確認,同時後台多個 Worker 已經並行啟動。
中途你追加一個新需求,「順便幫我查一下這個」,Leader 當場響應,後台任務不停。
就像一個能秒回你微信、還幫你做事的同事。

M3 的模型能力加上 MiniMax Code 的 Agent 團隊——一個負責想,一個負責幹,兩者結合,開啟了無限的想像力。
風波過後,大家的注意力終於又回到了 M3 本身。
而接下來,真正關鍵的一步來了:它的權重與完整技術報告,將在 10 天內開源。
At that time, developers worldwide will rate it using real projects.
秒追 ASI
⭐點讚、轉發、在看一鍵三連⭐
點亮星標,鎖定新智元极速推送!


專家預測年底才到,Claude Mythos 今天就跑出 3 小時 6 分!



