MiniMax M3 aberto com suporte multimodal nativo e comprimento de contexto de 1M

MarsBit

Data de lançamento: 06/12/2026 15:25:01

Resumo

MiniMax lançou em código aberto seu modelo multimodal MoE nativo M3 no Hugging Face, com 428 bilhões de parâmetros e comprimento de contexto de 1 milhão de tokens. O modelo suporta dados de texto, imagem e vídeo com fusão semântica nativa. Uma versão quantizada MXFP8 está disponível, compatível com SGLang, vLLM e Transformers. O interesse aberto em ferramentas de modelos grandes permanece elevado. O M3 utiliza o kernel MiniMax Sparse Attention (MSA) em código aberto, que acelera o pré-preenchimento e a decodificação. O sentimento do mercado, conforme refletido no índice de medo e ganância, mostra crescente confiança na infraestrutura de IA.

De acordo com o monitoramento da Beating, a empresa chinesa de modelos grandes MiniMax lançou oficialmente os pesos do modelo nativo multimodal Mixture of Experts (MoE) MiniMax M3 no Hugging Face. O MiniMax M3 possui um total de 428 bilhões de parâmetros, com 23 bilhões de parâmetros ativados por token, e suporte nativo a contextos ultra-longos de até 1 milhão de tokens. Para reduzir o consumo de memória GPU na implantação, a equipe de desenvolvimento lançou simultaneamente uma versão quantizada MXFP8, compatível com frameworks de inferência principais como SGLang, vLLM e Transformers. No design multimodal, o MiniMax M3 realiza treinamento conjunto de texto, imagem e vídeo durante a fase de pré-treinamento para alcançar fusão semântica nativa, em vez de alinhar multimodalidade após o treinamento. Em termos de mecanismo de funcionamento, o modelo oferece dois modos de inferência: o modo Thinking (pensamento), voltado para lógica complexa e orquestração de ferramentas, e o modo Non-thinking (não pensamento), otimizado para conversas de baixa latência e geração de código. O núcleo subjacente que suporta contextos ultra-longos de um milhão de tokens é a biblioteca leve de núcleo de atenção MiniMax Sparse Attention (MSA), também lançada como código aberto. Dados oficiais mostram que o MSA utiliza um mecanismo de agrupamento de atenção com consulta (GQA) e busca por blocos. Em testes com contextos extremamente longos de 1 milhão de tokens, os operadores MSA otimizados para a arquitetura NVIDIA Blackwell (SM100) alcançam mais de 9 vezes aceleração no pré-preenchimento e 15 vezes aceleração na decodificação em comparação com o mecanismo tradicional de atenção completa, reduzindo significativamente o custo de inferência.

Fonte:Mostrar original

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.