La publication du modèle M3 par MiniMax suscite une attention mondiale ; le PDG de Vercel soutient publiquement le modèle, mais la communauté nationale conteste les ajustements de prix. Les développeurs ont validé les performances de M3 via des tests aveugles et réels, révélant qu'il égale Claude Opus 4.8 en génération de code et figure parmi les dix meilleurs modèles mondiaux selon plusieurs benchmarks, devenant ainsi le meilleur modèle open source. Le modèle repose sur une nouvelle architecture MiniMax Sparse Attention, réduisant la charge de calcul à 1/20e pour un contexte de 1 million. MiniMax lance simultanément la fonction Agent Team, composée de trois types d'agents collaboratifs : Leader, Worker et Verifier. Les poids du modèle et le rapport technique complet seront publiés en open source dans les dix prochains jours, permettant aux développeurs du monde entier de les tester dans des projets réels.

Auteur et source de l'article : Nezhiyuan

New Ze Yuan reports

【MiniMax M3 : Les grands noms de la Silicon Valley soutiennent le projet, mais la communauté est divisée. Les développeurs du monde entier l'ont déjà testé.】

Récemment, le même modèle a envahi les médias nationaux et internationaux.

Guillermo Rauch, PDG de Vercel, possédant 5,4 millions d'abonnés, s'est publiquement exprimé de manière extrêmement rare.

Il a recommandé un modèle entièrement issu de Chine — MiniMax M3.

Cependant, ce même M3 fait également l'objet de nombreuses critiques, et les commentaires sur les communautés nationales se transforment en une véritable tempête.

La plupart des commentaires se concentrent sur le ajustement des prix du Token Plan. De nombreux utilisateurs anciens estiment que leurs droits ont été réduits et sont en colère.

En revanche, l'ambiance de la communauté internationale est complètement différente de celle du pays.

Certains développeurs étrangers spéculent sur les paramètres d'architecture de M3, le mécanisme d'attention clairsemée et la taille des données d'entraînement.

Par exemple, l'utilisateur Rohan sur X a déclaré que regarder uniquement le prix n'a pas de sens ; bien que le coût soit également important, il souhaite surtout comprendre la manière dont le modèle commet des erreurs et son comportement réel dans le système Agent.

Un autre internaute est plus direct : « Il est déjà impressionnant que M3, en tant que modèle open source, puisse suivre Opus et GPT-5, mais avant de croire ces publicités, je veux voir avec mes propres yeux s’il échoue en direct. »

Face à ces évaluations externes, MiniMax a réagi rapidement, annonçant le même jour un plan de compensation : les utilisateurs existants conservent leurs droits existants, tandis que les nouveaux utilisateurs bénéficient d'une augmentation de 50 % de leur limite hebdomadaire.

Le problème de prix est résolu ; maintenant, la question la plus essentielle est : M3 est-il vraiment fort, ou s'agit-il simplement d'une illusion de classement ?

72 heures

Une « vérification rigoureuse » qui secoue les développeurs du monde entier

Pour vérifier les performances réelles de M3, le développeur Victoria Wu a fourni le même prompt (générer une animation d'un pélican faisant du vélo) à M3, Sonnet 4.6 et Opus 4.8.

Ensuite, étiquetez les trois résultats comme A, B et C, et laissez les internautes deviner au hasard lequel est le M3.

La section commentaires est presque unanime : « A est trop fluide, c'est sûrement Opus » ; « M3 doit être B ou C ».

Résultats annoncés. A est M3.

De même, le développeur JAZII a réalisé une série d'expériences de contrôle au niveau du test aveugle.

Il a utilisé le même prompt exactement, demandant au modèle de créer depuis zéro une version clone de Minecraft en HTML avec Three.js ; les participants étaient M3 et Opus 4.8.

Bien que M3 ait pris un peu plus de temps, le résultat final de l'exécution du code de JAZII a affiché deux mots : « Super close ».

À gauche se trouve M3, à droite Opus 4.8. Aviez-vous deviné correctement ?

Le développeur chinois sur X, « ShiJianGe minli », a poussé les capacités multimodales et d'encodage agentic de M3 à leurs limites, créant ainsi un jeu de combat par gestes « Feng Ren Xiu Xian Zhuan » avec M3.

Au cours de ce processus, M3 doit comprendre des gestes visuels complexes et rédiger un code logique de très longue portée. Lorsqu'on exécute l'ensemble du flux, la consommation de jetons n'est que de 20 % de celle de Claude Sonnet.

L'évaluateur d'IA réputé pour sa rigueur, Thomas Wiegold, a publié dans les plus brefs délais un rapport d'essai de 3 000 mots.

Il a évalué M3 comme suit : « C’est l’un des modèles les plus intéressants que j’ai testés cette année. »

La dernière fois qu'un modèle chinois a fait trembler la Silicon Valley, c'était il y a six mois avec le lancement de DeepSeek V4.

Et cette fois-ci, l'impact apporté par MiniMax M3 semble encore plus tridimensionnel.

Insérez un mémoire de 50 pages, et M3 le décompose tout seul.

Regarder les autres tester ne suffit pas. Nous avons pris les devants et choisi deux questions spécifiquement conçues pour mettre les modèles à rude épreuve.

La première est un rapport technique de DeepSeek-V3 long de 50 pages, rempli de graphiques, de formules et de pseudo-code, avec une densité d'information maximale.

Tout d'abord, faites en sorte que M3 établisse une chaîne causale technique sur « la superposition de la communication et du calcul de base » pour voir si elle peut clarifier la logique d'ingénierie la plus approfondie de cet article.

M3 a réfléchi 15 fois, exécuté 19 commandes et appelé 1 outil.

Il décompose clairement le chemin d'implémentation complet de la stratégie de planification DualPipe, sans rupture dans la chaîne logique.

Faites glisser vers le haut ou vers le bas pour afficher

La prochaine épreuve testera la capacité multimodale de M3.

Téléchargez un schéma de structure MLA, puis demandez au modèle d'identifier quelles formules mathématiques du texte correspondent au processus d'ordonnancement dynamique et de projection.

M3 a rapidement fourni l'analyse correspondante, avec une précision remarquable.

La difficulté augmente encore. Si une ligne sur le schéma cache, dans la description textuelle du texte principal, une contrainte plus profonde, demandez à M3 d'indiquer sa position visuelle sur le schéma et d'expliquer la raison sous-jacente.

M3 a ajouté des annotations directement sur le schéma d'architecture MLA et a fourni une décomposition détaillée des trois contraintes.

Une conférence GTC de 2 heures, M3 publie directement le texte

La deuxième question est plus difficile : il ne s'agit pas seulement de comprendre, mais aussi de l'écrire.

Les supports de cette session sont la conférence plénière complète de la GTC d’NVIDIA, d’une durée de 1 heure et 57 minutes, accompagnés des directives de rédaction, tout cela envoyé en bloc à M3.

Une prompt : après avoir regardé la vidéo, produisez un reportage approfondi de 3 000 à 40 000 mots selon les normes.

Face à une vidéo brute de 1,15 Go, les outils IA ordinaires ne peuvent que renvoyer une erreur.

Mais avec le soutien du kit d'outils système MiniMax Code, M3 a immédiatement trouvé une solution —

L'appel de ffmpeg a permis de compresser et de découper les fichiers, ouvrant ainsi une voie praticable pour moi-même.

Après avoir consommé les 12 segments, M3 a remis une liste de contenus impressionnante.

La timestamp est précise à la minute, avec des détails d'image extrêmement fins.

La veste en cuir noire avec motif d'écailles que portait Lao Huang, le plan rapproché de 15 secondes montrant le puce N1X sorti de la poche de son pantalon et levée au-dessus de la tête, ainsi que la remarque humoristique lors de la présentation du vrai modèle de Vera Rubin : « Il y a probablement 2000 personnes derrière en train de tirer », sont tous mentionnés.

Il n'a même pas laissé passer la phrase chinoise soudaine de Lao Huang : « Trop de choses ».

Ce qui est encore plus fort, c’est que M3 a également présenté les trois points qu’il considère comme les plus impressionnants de la session, chacun accompagné de ses propres raisons.

Après confirmation de la liste des supports, M3 a commencé à écrire.

Commencez par la scène où Lao Huang sort de sa poche, puis élevez-vous jusqu'à l'idée que « le propriétaire de cette chaîne de valeur passe de l'humain à l'Agent ».

Brouillon de 3500 mots, rendu dans 40 minutes.

Bien qu'il n'atteigne pas encore notre niveau d'édition, il offre un point de départ de qualité suffisante.

Après avoir regardé une vidéo de 2 heures en multimodal, le contexte long intègre tous les supports + les normes d'écriture + les exemples dans une même fenêtre, et l'agent s'adapte pour résoudre tout problème rencontré.

Les trois capacités fondamentales de M3 ont été poussées à leur limite absolue dans cette tâche ; manquer l'une quelconque rendrait l'accomplissement impossible.

12 bulletins de notes de modèles, M3 a créé une vue d'ensemble complète

La troisième question change de direction : pas de texte long, mais lecture de schémas, recherche en ligne et ingénierie.

Lors de la publication de chaque modèle, une image de comparaison de benchmark est généralement incluse, mais les formats varient considérablement : tableaux, diagrammes en barres, graphiques radar, avec des critères de données non uniformes.

Vouloir faire une comparaison horizontale nécessite de parcourir chaque page et chaque case manuellement, ce qui est extrêmement pénible.

Envoyez directement dix captures d’écran de benchmarks provenant des blogs officiels de différents modèles et des plateformes d’évaluation tierces à M3, afin qu’il comprenne lui-même tous les graphiques, complète en ligne les données manquantes, uniformise les critères et crée un tableau de bord interactif de comparaison.

M3 identifie d'abord les noms de modèles et les scores dans les captures d'écran. Pour les graphiques présentant un format différent, effectuez une normalisation automatique. Complétez les données manquantes dans les captures d'écran en les récupérant directement sur les sources officielles en ligne.

Un écran interactif sombre au style Bloomberg Terminal a été généré.

12 modèles, 14 benchmarks, classement global, comparaison sous forme de graphique radar, diagrammes en barres individuels et nuages de points prix/performance : quatre modules en un seul coup.

Trois compétences, toutes maximisées en une seule fois

Après avoir effectué les trois questions, les limites des capacités de M3 sont déjà claires. La question suivante est : comment a-t-il réussi à le faire ?

La réponse réside dans la mise en œuvre simultanée des trois compétences fondamentales : programmation de pointe, fenêtre de contexte de 1M et multimodalité native.

Their foundation is a new attention architecture called MiniMax Sparse Attention (MSA).

Lors du traitement de contextes de plusieurs millions, l'attention traditionnelle entraîne une explosion exponentielle du calcul, épuisant la mémoire GPU et sa puissance de traitement.

MSA a éliminé ce goulot d'étranglement en utilisant une méthode de rareté au niveau des blocs.

Au niveau de l'opérateur, il permet à chaque bloc de données KV d'être lu une seule fois en mémoire, avec un accès mémoire entièrement continu, sans aucune copie répétée.

L'effet ne peut être décrit que comme violent.

Dans le cadre d’un contexte de 1 million, le calcul par token de M3 a été réduit de manière drastique à 1/20 de celui de la génération précédente. L’accélération du pré-remplissage dépasse 9 fois, et l’accélération du décodage dépasse 15 fois.

Du côté du multimodal, c’est tout aussi agressif. M3 n’est pas un simple assemblage d’un modèle textuel pré-entraîné avec un module visuel ajouté ultérieurement.

Dès la première étape d'entraînement, les textes, images et vidéos ont été mélangés et fournis ensemble. À cet effet, l'équipe de recherche a重构é l'ensemble du pipeline de données et a directement porté la taille de la pré-formation à un niveau de 100 To.

En conséquence, M3 obtient la meilleure position mondiale parmi les modèles open source sur l'indice intelligent综合 de Artificial Analysis, se classant au septième rang mondial.

Sur le classement GPQA Diamond de raisonnement scientifique, M3 obtient 93,2 %, se classant parmi les quatre premiers mondiaux, dépassant Claude Opus 4.8 et Opus 4.7.

Sur le classement des raisonnements à long contexte, M3 se classe parmi les six premiers avec 74,0 %, au même niveau que la série GPT-5.

Sur le classement des agents de tâches réelles de GDPval-AA, M3 obtient 1670 points, classé cinquième mondial, à seulement 6 points de Sonnet 4.6.

Les critères d'évaluation varient selon chaque classement, mais la position de M3 reste constamment à la limite supérieure du premier groupe de modèles propriétaires et en tête des modèles open source.

Faites glisser vers la gauche ou la droite pour afficher

Sur le classement multimodal tiers de confiance Vals Index, M3 est également monté à la sixième place mondiale.

Il s'agit du meilleur résultat actuel pour les modèles open source en Chine et du classement mondial le plus élevé pour les modèles open source.

Du point de vue global, M3 a clairement dépassé la barrière de Claude Sonnet 4.6.

Bien qu'il soit encore à un souffle de l'Opus 4.7 et du GPT-5.5 les plus puissants, il est sans conteste entré dans le groupe de la mort.

Un seul agent ne suffit pas ? Alors engagez une équipe.

La question suivante est alors tout à fait naturelle : avec quoi exécuter un tel modèle ?

Les tests précédents, où M3 utilisait ffmpeg pour découper la vidéo et produisait un rendu en 40 minutes, ont été effectués sur MiniMax Code.

Mais ce n'était encore qu'un seul agent qui travaillait. Ce qui mérite le plus d'être discuté dans cette mise à jour, c'est l'Agent Team.

Ceux qui ont utilisé des outils de programmation AI ont probablement vécu cette expérience.

Vous avez confié sept tâches à l’agent ; il en a accompli trois, puis s’est arrêté pour faire un rapport : « J’ai terminé les tâches 1, 2 et 3, faut-il que je continue ? » Ou bien, au milieu de son travail, son style change soudainement : il était encore un ingénieur fiable, puis il a commencé à dire des choses absurdes.

Pour y remédier, l'équipe Agent a séparé les arbitres des participants.

Leader est chargé de comprendre les objectifs, de décomposer les tâches et de planifier. Worker est chargé de réaliser les tâches concrètes, chaque Worker disposant de outils et de contextes différents. Verifier est chargé de valider et se charge spécifiquement de contredire Worker.

Le Worker a terminé, le Verifier commence à chercher des défauts. S’il trouve des problèmes, il renvoie le travail pour révision. Une fois le Verifier terminé, le Worker reprend le travail avec les commentaires apportés. Ce cycle d’opposition ne repose pas sur une auto-évaluation du modèle ; une machine à états sous-jacente en assure le contrôle.

Le point le plus agréable en pratique : vous envoyez un message, M3 répond immédiatement pour confirmer, tandis que plusieurs workers en arrière-plan sont déjà lancés en parallèle.

Au milieu de cela, vous avez ajouté une nouvelle demande : « En passant, pourrais-tu vérifier cela ? » Le leader a réagi immédiatement, tandis que les tâches d’arrière-plan continuaient.

Comme un collègue qui répond instantanément à vos messages WeChat et vous aide également à travailler.

Les capacités du modèle M3 combinées à l'équipe Agent de MiniMax Code — l'une chargée de réfléchir, l'autre de agir — ensemble, elles déclenchent une imagination sans limites.

Après la tempête, l'attention de tous est de nouveau revenue à M3 lui-même.

Et la prochaine étape cruciale arrive : son poids et le rapport technique complet seront open source dans les dix jours.

At that time, developers worldwide will rate it using real projects.

Suivre ASI en temps réel

⭐ Like, partagez, et cliquez sur "Voir" en un seul geste ⭐

Activez l'étoile pour recevoir les notifications rapides de XinZhiYuan !

Article précédent

Les experts prédisent que cela n'arrivera qu'à la fin de l'année, mais Claude Mythos a déjà accompli 3 heures et 6 minutes aujourd'hui !

Page suivante Article

Anthropic confie 95 % de son analyse d'activités à Claude, et le secret ne réside pas dans un modèle plus puissant

MiniMax M3 occupe la première place parmi les modèles open-source et suscite un débat dans la communauté chinoise

New Ze Yuan reports

【MiniMax M3 : Les grands noms de la Silicon Valley soutiennent le projet, mais la communauté est divisée. Les développeurs du monde entier l'ont déjà testé.】