Ipinakilala ni MiniMax ang M3 model, na nagdulot ng global na atensyon; kinilala ng CEO ng Vercel, ngunit may kontrobersiya sa loob ng lokal na komunidad tungkol sa pagbabago ng presyo. Ipinatunayan ng mga developer ang kakayahan ng M3 sa pamamagitan ng blind at real-world tests, na nagpapakita na ang paggawa ng code nito ay katumbas ng Claude Opus 4.8, at nasa top 10 sa maraming benchmark tests, gawing pinakamalakas na open-source model. Gumagamit ang model ng bagong arkitekturang MiniMax Sparse Attention, na bumabawas ng kalkulasyon sa 1/20 ng dating halaga sa 1 milyong context. Sinama rin ni MiniMax ang Agent Team function, kung saan ang Leader, Worker, at Verifier ay nagtatrabaho nang kooperatibo. Ang model weights at kompletong teknikal na ulat ay magiging open-source sa loob ng sampung araw, kung saan ang mga developer sa buong mundo ay magkakaroon ng pagkakataon na subukan ito sa totoong proyekto.

May-akda ng artikulo, pinagkukunan: Xinzhijyuan

Xin Zhi Yuan report

[New Intelligence Yuan Introduction] Sinuportahan ng mga lider sa Silicon Valley, ngunit nagkakagulo ang komunidad. Kayang tumigil ba ang MiniMax M3 sa tunay na pagsubok? Nagsimula na ang mga developer sa buong mundo.

Sa nakaraan, sinira ng isang parehong modelo ang mga feed sa loob at labas ng bansa.

Ang CEO ng Vercel, Guillermo Rauch, na may 5.4 milyong follower, ay nagsasalita nang lubos na kakaunti.

Ibinigay niya ang isang modelo na ganap na galing sa Tsina—MiniMax M3.

Gayunpaman, ang parehong M3 ay may maraming pagkakamali, at maraming komento sa mga komunidad sa bansa na naging isang malaking ingay.

Ang maraming komento ay nakatuon sa pagbabago ng presyo ng Token Plan. Maraming matandang user ang nagsasabing bumaba ang kanilang karapatan, at naging malakas ang kanilang reaksyon.

Ang estilo ng mga komunidad sa labas ng bansa ay lubos na iba sa mga lokal.

May ilang overseas developer na nagtatantiya ng mga parameter ng arkitektura ng M3, ang sparse attention mechanism, at laki ng training data.

Halimbawa, sinabi ng netizen na si Rohan sa X, ang pagtingin lang sa presyo ay walang kwenta, bagaman mahalaga rin ang gastos, ngunit higit niyang gustong malaman kung paano nagkakamali ang modelo at kung paano ito gumagana sa loob ng Agent system.

Mas direkta ang pananaw ng isang ibang netizen: "Kahit na ang M3 bilang open-source model ay nakakasunod sa Opus at GPT-5, ito ay napakagaling na, ngunit bago ako maniwala sa mga pagsasalaysay na ito, kailangan kong makita nang direktang bumagsak ito."

Sa pagharap sa mga panlabas na pagtataya, agad na tumindig ang MiniMax sa pamamagitan ng pagpapahayag ng plano para sa kompensasyon sa araw na iyon: ang mga lumalabas na user ay mananatiling may karapatan sa kanilang mga dating benepisyo, habang ang mga bagong user ay makakatanggap ng 50% karagdagan sa kanilang lingguhang limitasyon.

Nakaresolba na ang usapin sa presyo, ngayon, ang pinakamahalagang tanong ay: Totoo ba ang lakas ng M3, o isang illusyon lamang ng pagpapalit sa listahan?

72 na oras

Isang pagsusuri na naglalakbay sa buong mundo ng mga developer

Upang patunayan ang totoong performance ng M3, ang developer na si Victoria Wu ay nagbigay ng parehong prompt (upang gawin ng AI ang isang animasyon ng isang pelikano na nagbibisikleta) sa M3, Sonnet 4.6, at Opus 4.8.

Pagkatapos, lagyan ng label ang tatlong resulta bilang A, B, at C, at hayaan ang mga netizen na mag-anticipate kung alin ang M3.

Kasbayan ng komento, "Sobrang smooth ng A, siguradong Opus" at "M3 ay dapat B o C."

Ipinakita ang resulta. Ang A ay M3.

Hindi nag-iisa, ginawa rin ni developer JAZII isang set ng controlled experiment na level ng blind test.

Gumamit siya ng ganap na parehong Prompt, hinihingi ng modelo na gawin nang buong-kamay sa HTML gamit ang Three.js ang isang kopya ng Minecraft, at ang mga kalahok ay ang M3 at Opus 4.8.

Bagaman ang M3 ay nagsakop ng kaunting higit pang oras, ang huling resulta ng code ay ibinigay ni JAZII ng dalawang salita: 「Super close」.

Kaliwa ang M3, kanan ang Opus 4.8, tama mo ba?

Ang Chinese developer sa X na si "Shijian Ge minli" ay pinagdidiin ang multi-modal at Agentic Coding capability ng M3, at gumawa ng isang laro ng hand gesture na "Faren Xiuxian Zhuan" gamit ang M3.

Sa proseso na ito, kailangan ng M3 na maunawaan ang mga kumplikadong biswal na gesture at makumpleto ang mahabang pag-sulat ng code. Kapag pinagana nang buo, ang pagkawala ng Token ay tanging 20% ng Claude Sonnet.

Ang matinding AI evaluator na si Thomas Wiegold ay agad ring naglabas ng isang 3,000-salitang real-world report.

Ang kanyang pagtataya sa M3 ay: “Ito ay isa sa mga pinakamagandang modelo na aking nasubukan sa taong ito.”

Huling beses na nagdulot ng pagbabago sa Silicon Valley ang isang Chinese model ay noong nakaraang anim na buwan, noong ipinakilala ang DeepSeek V4.

At sa pagkakataong ito, ang pagkabigla na dinala ni MiniMax M3 ay tila mas malalim.

Ilagay ang 50-pahinang papel, i-decompose ng M3 mismo

Hindi sapat ang pagtingin lang sa pagsubok ng iba. Kami mismo ang sumubok, at pinili namin ang dalawang tanong na pinakamalakas na nagpapakita ng kakayahan ng modelo.

Ang unang bagay ay ang 50-pahina na teknikal na ulat ng DeepSeek-V3. Punong-puno ng mga grapiko, mga pormula, at pseudocode, na nagdudulot ng mataas na density ng impormasyon.

Una, hayaang i-surface ng M3 ang isang sanhi at epekto na teknikal na cadena tungkol sa “pagkakasunod-sunod ng komunikasyon at pagkalkula sa ilalim,” upang tingnan kung makakapagpaliwanag ito nang malinaw sa pinakamalalim na inhinyeriyang lohika sa papel na ito.

Napag-isipan ng M3 nang 15 beses, isinagawa ang 19 na utos, at ginamit ang 1 na kasangkapan.

Nakapaghiwalay nang malinaw ang buong implementasyon ng DualPipe scheduling strategy, walang mga break sa lohikal na chain.

I-slide pataas at pababa para makita

Susunod na tatalakayin ay ang multimodal na kakayahan ng M3.

I-upload ang isang larawan ng MLA structure, tapos hingin ang model na hanapin kung anong mga matematikal na pormula sa teksto ang tumutukoy sa dynamic scheduling at projection process.

Agad na ibinigay ng M3 ang katugmang pagsusuri, tumpak na natukoy.

Patuloy na lumalala ang hirap. Kung ang isang linya sa larawan ay may mas malalim na nakatagong pagtatakda sa tekstong paglalarawan, ipakita ni M3 ang visual na posisyon nito sa larawan at ipaliwanag ang dahilan.

Idinagdag ni M3 ang mga tala sa larawan ng arkitekturang MLA at ibinigay ang detalyadong pagkabuo ng tatlong limitasyon.

Isang 2-horas na GTC speech, direktang inilabas ni M3

Ang ikalawang tanong ay mas mahirap; hindi lang kailangan mong maintindihan, kundi kailangan mo ring isulat.

Ang mga materyales para sa pagkakataong ito ay ang buong 1 oras at 57 minuto na pangunahing talakayan mula sa GTC Conference ni NVIDIA, kasama ang mga patakaran sa pagsusulat, at ibinigay nang buo sa M3.

Isang prompt: Pagkatapos tingnan ang video, lumikha ng isang malalim na balita na may 3,000–40,000 salita ayon sa mga pamantayan.

Sa harap ng orihinal na video na may laki ng 1.15GB, ang karaniwang mga AI tool ay karamihan ay magkakaroon ng error at mawawala.

Ngunit sa ilalim ng suporta ng MiniMax Code system-level toolbox, agad nahanap ng M3 ang solusyon—

Nagamit ang ffmpeg upang i-compress at i-segment, at nagbigay ng sariling daan na maaaring sundan.

Pagkatapos kumain ng lahat ng 12 na seksyon, ibinigay ng M3 ang isang nakakagulat na lista ng materyales.

Precise sa minuto ang timestamp, napakadetalye ng detalye ng larawan.

Ang mga sumusunod ay nakalista lahat: ang itim na leather jacket ni Lao Huang na may texture ng iskala, ang close-up ng kanyang hinihigpit na itinataas sa itaas ng ulo ang N1X chip mula sa bulsa ng pantalon nang 15 segundo, at ang kanyang pagtatawa habang inilalabas ang totoong Vera Rubin sa entablado na may sabi na “siguro may 2,000 tao ang nagpapalabas sa likod.”

Hindi ito pinabayaan ang biglaang sinabing Chinese ni Lao Huang, "Masyadong maraming bagay."

Mas matinding bagay ay, inilabas din ni M3 ang tatlong pinakamalakas na puntos na iniisip niya, may sariling dahilan bawat isa.

Matapos matiyak ang listahan ng materyales, simulan ni M3 ang pagsulat.

Simulan sa pananaw ng lola na kumukuha sa bulsa, at hulihan sa pagtaas ng antas na “ang may-ari ng产业链 ay nagsisilbing nagbabago mula sa tao patungo sa Agent.”

Draft ng 3,500 salita, ipasa sa 40 minuto.

Bagaman ay hindi pa nakakamit ang aming antas ng pagpapalabas, ito ay nagbibigay ng sapat na kalidad bilang simula.

Nakakatapos ng 2-oras na video sa multimodal, ang habang konteksto ay naglalagay ng lahat ng materyales + mga pamantayan sa pagsulat + mga halimbawa sa iisang window, at ang kakayahan ng Agent ay maglutas ng anumang problema na makikita.

Ang tatlong pangunahing kakayahan ng M3 ay lubos na pinagsikapan sa gawain na ito, at kahit anumang isa sa kanila ay hindi makakamit.

12 na model na transcript, ginawa ng M3 ang panoramic view mismo

Ibang direksyon sa ika-tatlong tanong, hindi ito tumatalakay sa mahabang teksto, kundi sa pagbabasa ng larawan + pagkonekta sa internet + paggawa ng inhinyeriya.

Ang bawat modelo ay naglalabas ng isang larawan ng pagkukumpara sa benchmark nang ipaglaban, ngunit iba-iba ang anyo—may tabla, bar graph, at radar graph—at hindi uniform ang paraan ng pagkuha ng data.

Para makapag-compare nang horizontal, kailangan mong mag-scan nang isa-isa at mag-match nang isang box sa isang box—napakahirap.

Itinapon nang direkta ang sampung screenshot ng benchmark mula sa opisyal na blog ng iba’t ibang modelo at mga platform ng pagsusuri ng third-party sa M3, upang ito ay mabasa nang sarili nito ang lahat ng mga grapiko, i-connect ang internet para punan ang nawawalang data, i-unify ang mga pamantayan, at likhain ang isang interaktibong komparatibong screen.

M3 ay muna mag-recognize ng pangalan at skor ng model sa bawat screenshot. Kapag makakatagpo ng iba't ibang anyo ng chart, gawin ang pag-normalize mismo. Ang nawawalang data sa screenshot, direktang i-search sa online para makuha ang opisyal na pinagkukunan at i-complete.

Isinagawa ang isang malalim na kulay na interaktibong screen na may estilo ng Bloomberg Terminal.

12 na modelo, 14 na benchmark, komprehensibong leaderboard, paghahambing ng radar chart, bar chart para sa bawat katangian, at scatter plot ng presyo/kahusayan—lahat ng apat na module sa isang pagkakataon.

Tatlong kakayahan, isang pagpapalakas

Pagkatapos ng tatlong tanong, malinaw na ang hangganan ng kakayahan ng M3. Ang susunod na tanong ay, paano ito nagawa.

Ang sagot ay ang pagkakaroon ng tatlong pangunahing kakayahan nang sabay-sabay: advanced-level na pagprograma, 1M context window, at native multimodal.

Ang kanilang base ay isang bagong arkiwtektureng pagtitiyak na tinatawag na MiniMax Sparse Attention (MSA).

Ang tradisyonal na mekanismo ng atensyon ay nagdudulot ng eksponensyal na pagtaas sa pagkalkula kapag inaangkop ang mga konteksto sa milyon-milyon, at ang memorya at computing power ng GPU ay maaaring mabawasan nang buong-buo.

Nilutas ng MSA ang bottleneck gamit ang block-level sparsity.

Sa antas ng operator, ito ay nagpapahintulot na basahin ang bawat bloke ng KV data sa memory nang isang beses lamang, na may ganap na tuloy-tuloy na pag-access sa memory, at walang anumang paulit-ulit na pagdadala.

Ang epekto, ayon sa paglalarawan ay puwedeng tawaging puwersa.

Sa nakapagtatakot na sukat ng 1 milyong konteksto, ang bawat token computation ng M3 ay bawasan nang husto hanggang 1/20 ng nakaraang henerasyon. Ang prefill acceleration ay lumampas sa 9 beses, habang ang decoding acceleration ay lumampas sa 15 beses.

Ang multi-modal ay parehong matapang. Ang M3 ay hindi lang isang pinagsamang produkto na tinuturuan muna ang teksto bago idagdag ang visual module.

Mula sa unang hakbang ng pagtuturo, ang teksto, larawan, at video ay inilalagay nang magkasama. Para dito, binago ng team ng mga siyentipiko ang buong data pipeline at sinikat ang laki ng pre-training papunta sa antas ng 100T.

Bilang resulta, nakakuha ang M3 ng pinakamataas na ranggo sa mga open-source model sa Artificial Analysis Comprehensive Intelligence Index, at nasa ika-7 lugar sa buong mundo.

Sa GPQA Diamond Science Reasoning Ranking, nakakuha ang M3 ng 93.2% at nasa top four sa buong mundo, mas mataas kaysa sa Claude Opus 4.8 at Opus 4.7.

Sa leaderboard ng long-context reasoning, ang M3 ay nasa top six na may 74.0%, at malapit sa GPT-5 series.

Sa GDPval-AA Real Task Agent Ranking, ang 1,670 puntos ng M3 ay nasa ika-limang pwesto sa buong mundo, at nagkakaroon lamang ng 6 puntos ang pagkakaiba sa Sonnet 4.6.

Ang bawat listahan ay may iba’t ibang mga kriteryo ng pagsusuri, ngunit ang posisyon ng M3 ay palaging nasa parehong interval, sa hangganan ng unang grupo ng mga saradong modelo, at sa unahan ng mga bukas na modelo.

I-slide left at right para makita

Sa kilalang third-party multimodal ranking na Vals Index, ang M3 ay umabot sa ika-6 sa buong mundo.

Ito ang pinakamabuting resulta ng lokal na open-source model sa bansa, at ang pinakamataas na ranggo sa buong mundo para sa open-source models.

Mula sa pangkalahatang pagtingin, ang M3 ay nasa matatag na posisyon na lumampas sa Claude Sonnet 4.6.

Bagaman mayroon pa ring pagkakalayo mula sa pinakamalakas na Opus 4.7 at GPT-5.5, walang pag-aalinlangan na ito ay nasa death group.

Hindi sapat ang isang agent, kaya gumamit ng isang team

Ang sumusunod na tanong ay natural na nangyayari: Ano ang gagamitin upang run ito?

Sa nakaraang pagsubok, ang M3 ay gumamit ng ffmpeg upang i-cut ang video at naglabas ng output sa 40 minuto, at ito ay isinagawa sa MiniMax Code.

Ngunit iyon ay nagmumula pa lamang sa isang single agent. Ang pinakamalaking usapan sa pag-upgrade na ito ay ang Agent Team.

Mayroon na siguro lahat ng nagamit ng AI-powered programming tools ng ganitong karanasan.

Ibinigay mo sa Agent ang 7 gawain, at pagkatapos niyang tapusin ang 3, itinigil niya ito at nag-uulat, “Nakatapos na ako sa 1, 2, at 3, kailangan ko pa bang magpatuloy?” O kaya’y habang nagpapatakbo, biglang nagbabago ang estilo—nagiging mabuting inhinyero sa simula, ngunit biglaan nang mag-isip ng mga kakaibang bagay.

Para sa ganoon, ang paraan ng Agent Team ay ang paghihiwalay ng mga hurado at mga kalahok.

Ang Leader ay responsable sa pag-unawa sa mga layunin, paghihiwalay ng mga gawain, at pagpaplano. Ang Worker ay responsable sa pagsasagawa ng mga konkretong gawain, at may iba’t ibang mga kasangkapan at konteksto ang bawat Worker. Ang Verifier ay responsable sa pagpapatibay, at espesyal na nagtutugon sa pagtutol sa Worker.

Nakatapos na ang Worker, at nagmumula na ang Verifier na maghanap ng mga kakaibang bagay. Kapag nakita ang problema, babalikin ito para i-revise. Pagkatapos ng pagsusuri ng Verifier, babalik ang Worker na may mga rekomendasyon para sa pagbabago. Ang ganitong siklo ng pagtutol ay hindi nakabatay sa sariling pagpapasya ng modelo kung kailan dapat tumigil; mayroong isang state machine engine sa ilalim na nagpapatakbo nito.

Ang pinakamagandang karanasan sa totoong buhay ay ang pagpapadala ng isang mensahe, at agad na sumasagot ang M3, habang ang maraming Worker sa backend ay nagsisimula nang sabay-sabay.

Sa gitna ng pagpapalit, idinagdag mo ang isang bagong kahilingan, “Kuhaan mo rin ito para sa akin,” at agad na sumagot ang Leader, habang patuloy ang mga background task.

Parang isang kasamahan na agad na sumasagot sa iyo sa WeChat at nagtutulungan sa iyo sa trabaho.

Ang kapasidad ng modelo ng M3 kasama ang Team ng MiniMax Code Agent—isa na responsable sa pag-iisip, isa na responsable sa paggawa, ang pagkakaisa nila ay nagbukas ng walang hanggang imahinasyon.

Pagkatapos ng alitan, ang atensyon ng lahat ay bumalik sa M3 mismo.

At ang susunod, ang totoo nang mahalagang hakbang ay darating: ang kanyang timbang at kompletong teknikal na ulat ay magiging open source sa loob ng sampung araw.

Sa panahon noon, ang mga developer sa buong mundo ay magpapahalaga sa ito gamit ang totoong mga proyekto.

Track ASI sa segundo

⭐ I-like, i-share, i-view — isang pag-click lang! ⭐

I-light ang star label para i-lock ang mabilis na pagpapadala ng New Intelligence!

Naunang Pahina

Inaasahan ng mga eksperto na mangyari ito sa katapusan ng taon, ngunit ang Claude Mythos ay naglabas na ng 3 oras at 6 minuto ngayon!

Susunod na pahina Artikulo

Ibinigay ng Anthropic ang 95% ng kanilang pag-aaral ng negosyo sa Claude, at ang lihim ay hindi nasa mas malakas na modelo

Nakarating sa unang puwesto ang MiniMax M3 sa mga open-source model, nagdulot ng debate sa Chinese community

Xin Zhi Yuan report

[New Intelligence Yuan Introduction] Sinuportahan ng mga lider sa Silicon Valley, ngunit nagkakagulo ang komunidad. Kayang tumigil ba ang MiniMax M3 sa tunay na pagsubok? Nagsimula na ang mga developer sa buong mundo.