MiniMax lanza el método MSA Sparse Attention y el modelo MiniMax-M3

iconKuCoinFlash
Compartir
AI summary iconResumen
ME AI Message, MiniMax lanza MSA (MiniMax Sparse Attention), un método de atención dispersa construido sobre Grouped Query Attention. Divide la atención en una rama de índice y una rama principal: la rama de índice selecciona 16 bloques de tokens (presupuesto fijo de 2048 tokens de clave-valor) por grupo GQA a nivel de bloque (por defecto, 128 tokens), mientras que la rama principal realiza atención softmax precisa únicamente sobre estos bloques. MSA se entrenó en un modelo MoE de 109B parámetros, lanzó el kernel de inferencia para GPU NVIDIA SM100 `fmha_sm100` (licencia MIT, compatible con BF16/FP8/NVFP4/FP4) y publicó el modelo de producción MiniMax-M3. MSA-PT alcanza 67.2, 77.7, 64.0, 84.2 y 77.5 en MMLU, GSM8K, HumanEval, RULER-8K y RULER-32K respectivamente, empatando con la línea base de atención completa. Con un contexto de 128K, su selección Top-k sin exp es 5.1 veces más rápida que `torch.topk`. (Fuente: AiHot)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.