Xiaomi lançou o MiMo-V2.5-Pro-UltraSpeed, uma versão acelerada de inferência do seu modelo旗舰 com trilhões de parâmetros. A empresa afirma que, em um servidor padrão composto por 8 GPUs genéricas, a velocidade de inferência ultrapassou 1.000 tokens por segundo, com pico demonstrado próximo a 1.200 tokens.
O foco desta atualização não está no próprio novo modelo, mas na eficiência de inferência. Em comparação com soluções que dependem de chips personalizados, a Xiaomi enfatiza o uso de hardware genérico, alcançando aceleração por meio de otimizações no software e no modelo. Isso significa que a barreira para implantação rápida de grandes modelos pode diminuir ainda mais.
Duas tecnologias impulsionam o aumento de velocidade
A Xiaomi adotou principalmente duas tecnologias nesta ocasião. A primeira é a quantização FP4. A empresa compactou as camadas especializadas, que representam a maior parte dos parâmetros do modelo, para precisão de 4-bit, mantendo o restante em precisão mais alta. Isso reduz o uso de memória gráfica e a pressão sobre a largura de banda, aumentando assim a velocidade de inferência.
O segundo é a decodificação especulativa DFlash. A decodificação especulativa tradicional geralmente primeiro prevê poucos tokens por um modelo menor, depois verifica paralelamente por um modelo maior. O DFlash, em vez disso, propõe um bloco inteiro de tokens de uma só vez, para ser verificado pelo modelo principal. Em tarefas de código, o modelo principal aceita, em média, 6,3 dos 8 tokens candidatos por rodada.
A Xiaomi e seu parceiro de inferência, TileRT, também otimizaram o processo de execução. A abordagem consiste em manter o processo de cálculo permanentemente na GPU, reduzindo os custos adicionais causados pela inicialização sequencial de operadores.
Comparação de velocidade dos modelos principais
De acordo com os dados citados da Artificial Analysis, a velocidade de saída dos modelos gerais mais utilizados atualmente é geralmente inferior a esse nível. O relatório menciona que a velocidade de interação comum da série GPT é de aproximadamente 68 tokens por segundo, o Claude Opus 4.6 é de aproximadamente 71 tokens por segundo e o Gemini Flash é de aproximadamente 192 tokens por segundo.
A report também mencionou que empresas como Cerebras e Groq têm se posicionado há muito tempo em inferência de alto throughput, dependendo de arquiteturas de chips próprios para aumentar a velocidade. Em contraste, a Xiaomi alcançou este resultado em nós de GPU genéricos, destacando o aumento de desempenho trazido pela otimização de software.
Lançamento de teste limitado em 9 de junho
A Xiaomi afirmou que o UltraSpeed acelera a versão original do MiMo-V2.5-Pro, e não o modelo leve simplificado. O desempenho desse modelo em testes de benchmark de código foi anteriormente descrito como próximo ao nível do Claude Opus.
A empresa planeja abrir uma versão limitada de teste da API de 9 a 23 de junho, por meio de inscrição, com prioridade para usuários corporativos e desenvolvedores profissionais. Em termos de precificação, a versão UltraSpeed custa aproximadamente três vezes o valor da taxa padrão MiMo, mas a velocidade de geração pode aumentar até dez vezes.
Informação adicional: A Xiaomi informou que o modelo de checkpoint com FP4 e DFlash já foi aberto no Hugging Face para teste pela comunidade.
