MiniMax présente le modèle M3 avec une vitesse de décodage 15,6 fois plus rapide

MiniMax, le laboratoire d'IA basé à Shanghai soutenu par Tencent, Alibaba et miHoYo, vient de publier un rapport technique sur sa série de modèles M2. À l'intérieur se trouve une anticipation de son modèle M3 de prochaine génération, que l'entreprise affirme atteindre une vitesse de décodage 15,6 fois plus rapide et une vitesse de pré-remplissage 9,7 fois plus rapide que le M2 lors du traitement de contextes de 1 million de jetons.

Ce que MiniMax a réellement construit

La recette secrète derrière la teaser M3 est ce que MiniMax appelle l'attention clairsemée MiniMax, ou MSA. Elle repose sur une technique appelée sélection dynamique de blocs guidée par GQA. Au lieu de faire en sorte que le modèle prête attention à chaque élément d'information dans une fenêtre de contexte massive, la MSA sélectionne intelligemment les blocs de données qui comptent réellement pour une requête donnée. Le résultat est une réduction drastique de la puissance de calcul pour une qualité de sortie à peu près équivalente.

MiniMax affirme que le modèle M3 maintient une qualité de sortie comparable à celle de M2 malgré ces améliorations de vitesse massives.

Le rapport technique couvre les innovations techniques de toute la gamme M2 : M2, M2.5 et M2.7.

À noter : aucun nombre de paramètres confirmé, aucun détail sur la licence ni calendrier de sortie pour M3 n'ont encore été fournis.

L'empreinte croissante de MiniMax

Fondée au début de 2022, MiniMax a été cotée à la Bourse de Hong Kong en janvier 2026. Ses investisseurs, Tencent, Alibaba et miHoYo (le studio derrière Genshin Impact), représentent un échantillon de l'élite technologique et du gaming chinoise.

Au-delà du texte et du code, MiniMax exploite la plateforme Hailuo pour la génération de vidéos. Hailuo 2.3, la dernière version, a traité des milliards de résultats selon l'entreprise.

Pourquoi les investisseurs en crypto et en IA doivent prêter attention

Les réseaux d’inférence décentralisés sont constamment limités par la latence et le coût. Si les gains d’efficacité de MSA se traduisent par une empreinte ressources réduite par requête, les opérateurs de nœuds pourraient traiter davantage de requêtes sans mettre à niveau leurs équipements.

Les agents d'IA natifs de la crypto qui surveillent les données sur chaîne, exécutent des trades ou analysent des contrats intelligents en temps réel sont également limités par la vitesse à laquelle leurs modèles sous-jacents peuvent traiter les informations. Un modèle qui gère des contextes de 1 million de jetons à près de 16 fois la vitesse précédente ouvre des cas d'utilisation auparavant impraticables.

Aucune intégration directe entre la technologie de MiniMax et une plateforme blockchain ou un jeton numérique n'a été confirmée. La connexion entre des modèles d'IA plus rapides et des applications crypto reste une inférence logique, et non une annonce produit.

Pour les investisseurs dans l'espace de l'IA décentralisée, la métrique clé à surveiller n'est pas la date de sortie de M3. C'est de savoir si l'architecture MSA sera open-source en même temps que les poids du modèle. Si MiniMax suit son modèle établi de licences permissives, chaque projet d'inférence décentralisée à travers le monde obtient une mise à niveau gratuite de son playbook d'efficacité. Si l'entreprise garde MSA propriétaire, l'avantage concurrentiel reste centralisé à Shanghai.