MiniMax lance la méthode MSA Sparse Attention et le modèle MiniMax-M3

iconKuCoinFlash
Partager
AI summary iconRésumé
ME AI Message, MiniMax a publié MSA (MiniMax Sparse Attention), une méthode d'attention sparse construite sur Grouped Query Attention. Elle décompose l'attention en une branche d'indexation et une branche principale : la branche d'indexation sélectionne 16 blocs de tokens (budget fixe de 2048 tokens clé-valeur) par groupe GQA à une granularité de bloc (128 tokens par défaut), tandis que la branche principale n'effectue une attention softmax précise que sur ces blocs. MSA a été formée sur un modèle MoE de 109 milliards de paramètres, avec un noyau d'inférence open source pour GPU NVIDIA SM100, `fmha_sm100` (licence MIT, prend en charge BF16/FP8/NVFP4/FP4), ainsi qu'un modèle de production, MiniMax-M3. MSA-PT atteint respectivement 67,2, 77,7, 64,0, 84,2 et 77,5 sur MMLU, GSM8K, HumanEval, RULER-8K et RULER-32K, égalant les performances de la base d'attention complète. Dans un contexte de 128K, sa sélection Top-k sans exp est 5,1 fois plus rapide que `torch.topk`. (Source : AiHot)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.