Um modelo de IA com um trilhão de parâmetros acabou de ser executado em uma placa de vídeo que a maioria dos jogadores consideraria de médio porte.
Um entusiasta chinês de IA conhecido como APFrisco demonstrou o modelo Kimi K2.5 da Moonshot AI, um modelo de linguagem grande Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, executando em uma única GPU Nvidia RTX 3060 combinada com 768 GB de memória persistente Intel Optane. A configuração alcançou aproximadamente quatro tokens por segundo, o que é lento segundo padrões de produção, mas notável considerando o hardware envolvido.
Como uma GPU de nível médio lida com um trilhão de parâmetros
O Kimi K2.5 não ativa todos os 1 trilhão de parâmetros de uma só vez. Para cada token gerado, apenas 32 bilhões de parâmetros são ativados. O restante permanece inativo, aguardando sua vez.
Mesmo com esse truque de eficiência, o modelo é enorme. A versão completa do Kimi K2.5 pesa aproximadamente 630 GB. Versões quantizadas, que comprimem a precisão do modelo para reduzir os requisitos de memória, ainda ocupam cerca de 381 GB. É por isso que o APFrisco precisou de 768 GB de Memória Persistente Intel Optane: nenhuma configuração padrão de RAM de consumo se aproxima de lidar com esse tipo de tamanho.
Os DIMMs Optane PMem são uma escolha interessante. A Intel encerrou sua linha Optane, o que significa que esses módulos são agora essencialmente hardware legado disponível no mercado de segunda mão. Eles são mais lentos que a DRAM tradicional, mas muito mais baratos por gigabyte, tornando-os uma solução incomum, mas surpreendentemente prática para carregar modelos massivos que de outra forma exigiriam infraestrutura de nível empresarial.
A RTX 3060 foi lançada no início de 2021 com 12 GB de VRAM. Foi projetada para jogos em 1080p e cargas de trabalho criativas leves, não para executar modelos de IA de ponta.
Como são típicos os deployments do Kimi K2.5
Inferência de alto desempenho para o Kimi K2.5 geralmente visa configurações com até 8 GPUs de alto desempenho. Esses setups oferecem velocidades entre 10 e mais de 300 tokens por segundo.
A demonstração foi compartilhada na comunidade r/LocalLLaMA do Reddit e posteriormente coberta pelo Tom’s Hardware.
O Kimi K2.5 foi lançado em 27 de janeiro de 2026 pela Moonshot AI. Ele possui capacidades multimodais e foi treinado com aproximadamente 15 trilhões de tokens visuais e textuais mistos. É um modelo de pesos abertos, o que significa que qualquer pessoa pode baixá-lo e executá-lo — exatamente o que tornou possível o experimento da APFrisco.
