Entusiasta chinês executa o Kimi K2.5 com 1 trilhão de parâmetros em RTX 3060 com 768 GB de memória Intel Optane

Um modelo de IA com um trilhão de parâmetros acabou de ser executado em uma placa de vídeo que a maioria dos jogadores consideraria de médio porte.

Um entusiasta chinês de IA conhecido como APFrisco demonstrou o modelo Kimi K2.5 da Moonshot AI, um modelo de linguagem grande Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, executando em uma única GPU Nvidia RTX 3060 combinada com 768 GB de memória persistente Intel Optane. A configuração alcançou aproximadamente quatro tokens por segundo, o que é lento segundo padrões de produção, mas notável considerando o hardware envolvido.

Como uma GPU de nível médio lida com um trilhão de parâmetros

O Kimi K2.5 não ativa todos os 1 trilhão de parâmetros de uma só vez. Para cada token gerado, apenas 32 bilhões de parâmetros são ativados. O restante permanece inativo, aguardando sua vez.

Anúncio

Mesmo com esse truque de eficiência, o modelo é enorme. A versão completa do Kimi K2.5 pesa aproximadamente 630 GB. Versões quantizadas, que comprimem a precisão do modelo para reduzir os requisitos de memória, ainda ocupam cerca de 381 GB. É por isso que o APFrisco precisou de 768 GB de Memória Persistente Intel Optane: nenhuma configuração padrão de RAM de consumo se aproxima de lidar com esse tipo de tamanho.

Os DIMMs Optane PMem são uma escolha interessante. A Intel encerrou sua linha Optane, o que significa que esses módulos são agora essencialmente hardware legado disponível no mercado de segunda mão. Eles são mais lentos que a DRAM tradicional, mas muito mais baratos por gigabyte, tornando-os uma solução incomum, mas surpreendentemente prática para carregar modelos massivos que de outra forma exigiriam infraestrutura de nível empresarial.

A RTX 3060 foi lançada no início de 2021 com 12 GB de VRAM. Foi projetada para jogos em 1080p e cargas de trabalho criativas leves, não para executar modelos de IA de ponta.

Como são típicos os deployments do Kimi K2.5

Inferência de alto desempenho para o Kimi K2.5 geralmente visa configurações com até 8 GPUs de alto desempenho. Esses setups oferecem velocidades entre 10 e mais de 300 tokens por segundo.

A demonstração foi compartilhada na comunidade r/LocalLLaMA do Reddit e posteriormente coberta pelo Tom’s Hardware.

O Kimi K2.5 foi lançado em 27 de janeiro de 2026 pela Moonshot AI. Ele possui capacidades multimodais e foi treinado com aproximadamente 15 trilhões de tokens visuais e textuais mistos. É um modelo de pesos abertos, o que significa que qualquer pessoa pode baixá-lo e executá-lo — exatamente o que tornou possível o experimento da APFrisco.