MiniMax lança o método MSA Sparse Attention e o modelo MiniMax-M3

iconKuCoinFlash
Compartilhar
AI summary iconResumo
ME AI Mensagem, a MiniMax lançou o MSA (MiniMax Sparse Attention), um método de atenção esparsa construído sobre o Grouped Query Attention. Ele divide a atenção em um ramo de índice e um ramo principal: o ramo de índice seleciona 16 blocos de tokens (orçamento fixo de 2.048 tokens de chave/valor) por grupo GQA com granularidade de bloco (padrão: 128 tokens), enquanto o ramo principal executa atenção softmax precisa apenas sobre esses blocos. O MSA foi treinado em um modelo MoE com 109 bilhões de parâmetros, com kernels de inferência abertos para GPUs NVIDIA SM100 chamados `fmha_sm100` (licença MIT, suporte a BF16/FP8/NVFP4/FP4), e lançou o modelo de produção MiniMax-M3. O MSA-PT alcançou 67,2, 77,7, 64,0, 84,2 e 77,5 nos conjuntos de dados MMLU, GSM8K, HumanEval, RULER-8K e RULER-32K, respectivamente, empatando com a linha de base de atenção completa. Em contexto de 128K, sua seleção Top-k sem exp é 5,1 vezes mais rápida que o `torch.topk`. (Fonte: AiHot)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.