MiniMax antecipa o modelo M3 com velocidade de decodificação 15,6x mais rápida

MiniMax, o laboratório de IA baseado em Xangai apoiado pela Tencent, Alibaba e miHoYo, acaba de lançar um relatório técnico sobre sua série de modelos M2. Dentro dele, há uma prévia de seu próximo modelo M3, que a empresa afirma alcançar uma velocidade de decodificação 15,6 vezes mais rápida e uma velocidade de preenchimento 9,7 vezes mais rápida em comparação ao M2 ao processar contextos de 1 milhão de tokens.

O que o MiniMax realmente construiu

A fórmula secreta por trás do teaser do M3 é algo que a MiniMax chama de MiniMax Sparse Attention, ou MSA. Ela é construída com base em uma técnica chamada seleção dinâmica de blocos impulsionada por GQA. Em vez de fazer o modelo prestar atenção a cada pedaço de informação em uma janela de contexto enorme, a MSA escolhe inteligentemente quais blocos de dados realmente importam para uma determinada consulta. O resultado é um consumo de computação drasticamente menor, com qualidade de saída aproximadamente igual.

A MiniMax afirma que o modelo M3 mantém a qualidade da saída comparável à do M2, apesar dessas melhorias significativas de velocidade.

O relatório técnico cobre as inovações de engenharia em toda a linha M2: M2, M2.5 e M2.7.

Anúncio

Vale ressaltar: ainda não foram fornecidos número confirmado de parâmetros, detalhes de licenciamento ou cronograma de lançamento para o M3.

A expansão crescente da MiniMax

Fundada no início de 2022, a MiniMax foi listada na Bolsa de Valores de Hong Kong em janeiro de 2026. Seus apoiadores, Tencent, Alibaba e miHoYo (o estúdio por trás de Genshin Impact), representam um recorte da elite tecnológica e de jogos da China.

Além de texto e código, a MiniMax opera a plataforma Hailuo para geração de vídeos. O Hailuo 2.3, a última versão, processou bilhões de resultados, segundo a empresa.

Por que os investidores em cripto e IA devem prestar atenção

Redes de inferência descentralizadas estão constantemente limitadas por latência e custo. Se as melhorias de eficiência da MSA se traduzirem em pegadas de recursos menores por consulta, os operadores de nodes poderão atender mais solicitações sem atualizar seus equipamentos.

Agentes de IA nativos de criptomoedas que monitoram dados on-chain, executam negociações ou analisam contratos inteligentes em tempo real são igualmente limitados pela velocidade com que seus modelos subjacentes processam informações. Um modelo que lida com contextos de 1 milhão de tokens a quase 16 vezes a velocidade anterior abre casos de uso anteriormente impraticáveis.

Nenhuma integração direta entre a tecnologia da MiniMax e qualquer plataforma de blockchain ou token digital foi confirmada. A conexão entre modelos de IA mais rápidos e aplicações de cripto permanece uma inferência lógica, não um anúncio de produto.

Para investidores no espaço de IA descentralizada, a métrica-chave para acompanhar não é a data de lançamento do M3. É se a arquitetura MSA será aberta junto com os pesos do modelo. Se a MiniMax seguir seu padrão estabelecido de licenciamento permissivo, todo projeto de inferência descentralizada do planeta receberá um upgrade gratuito para seu playbook de eficiência. Se a empresa mantiver o MSA como proprietário, a vantagem competitiva permanecerá centralizada em Xangai.