MiniMax M3 open-source avec prise en charge multimodale native et une longueur de contexte de 1M

MarsBit

Date de parution : 06/12/2026 15:25:01

Résumé

MiniMax a open-sourcé son modèle multimodal MoE natif M3 sur Hugging Face, doté de 428 milliards de paramètres et d'une longueur de contexte de 1 million de jetons. Le modèle prend en charge les données textuelles, d'images et de vidéos avec une fusion sémantique native. Une version quantifiée MXFP8 est disponible, compatible avec SGLang, vLLM et Transformers. L'intérêt ouvert pour les outils de grands modèles reste élevé. M3 utilise le noyau MiniMax Sparse Attention (MSA) open-source, qui accélère le préremplissage et le décodage. Le sentiment du marché, tel qu'exprimé par l'indice de peur et de cupidité, montre une confiance croissante dans l'infrastructure IA.

Selon les données de Beating Monitoring, le fabricant chinois de grands modèles MiniMax a officiellement open-sourcé les poids du modèle natif multimodal MoE (Mixture of Experts) MiniMax M3 sur Hugging Face. Le modèle MiniMax M3 compte un total de 428 milliards de paramètres, avec 23 milliards de paramètres activés par token, et prend en charge nativement un contexte ultra-long de 1 million de tokens. Pour réduire la consommation de mémoire GPU lors du déploiement, l'équipe de développement a également publié une version quantifiée MXFP8, compatible avec les principaux frameworks d'inférence tels que SGLang, vLLM et Transformers. Sur le plan multimodal, MiniMax M3 effectue un entraînement conjoint texte, image et vidéo dès la phase d'entraînement initial afin d'atteindre une fusion sémantique native, plutôt que d'aligner les modalités après l'entraînement. En termes de mécanisme d'exécution, le modèle propose deux modes d'inférence : le mode Thinking (réflexion), dédié à la logique complexe et à l'orchestration d'outils, et le mode Non-thinking (non-réflexion), optimisé pour les conversations à faible latence et la génération de code. Le noyau sous-jacent permettant de gérer des contextes ultra-longs jusqu'à un million de tokens est la bibliothèque légère d'attention MiniMax Sparse Attention (MSA), également open-sourcée en parallèle. Selon les données officielles, MSA utilise un mécanisme de recherche par blocs basé sur le Grouped Query Attention (GQA). Dans des tests réels avec un contexte de 1 million de tokens, les opérateurs MSA optimisés pour l'architecture NVIDIA Blackwell (SM100) affichent une accélération de plus de 9 fois pour le pré-remplissage et de 15 fois pour le décodage par rapport aux mécanismes d'attention complète traditionnels, tout en réduisant significativement les coûts d'inférence.

Source:Afficher l'original

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.