Entusiasta chinês executa o Kimi K2.5 com 1 trilhão de parâmetros em RTX 3060 com 768 GB de memória Intel Optane

iconCryptoBriefing
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Um entusiasta chinês de IA chamado APFrisco apresentou o Kimi K2.5 da Moonshot AI, um modelo MoE de 1 trilhão de parâmetros, executando em uma única GPU RTX 3060 com 768 GB de memória Intel Optane. O sistema processou cerca de quatro tokens por segundo. Esta notícia de IA + cripto destaca uma grande conquista na cadeia, pois o tamanho do modelo excede 630 GB. O hardware é de nível médio, tornando o desempenho especialmente notável.

Um modelo de IA com um trilhão de parâmetros acabou de ser executado em uma placa de vídeo que a maioria dos jogadores consideraria de médio porte.

Um entusiasta chinês de IA conhecido como APFrisco demonstrou o modelo Kimi K2.5 da Moonshot AI, um modelo de linguagem grande Mixture-of-Experts (MoE) com 1 trilhão de parâmetros totais, executando em uma única GPU Nvidia RTX 3060 combinada com 768 GB de memória persistente Intel Optane. A configuração alcançou aproximadamente quatro tokens por segundo, o que é lento segundo padrões de produção, mas notável considerando o hardware envolvido.

Como uma GPU de nível médio lida com um trilhão de parâmetros

O Kimi K2.5 não ativa todos os 1 trilhão de parâmetros de uma só vez. Para cada token gerado, apenas 32 bilhões de parâmetros são ativados. O restante permanece inativo, aguardando sua vez.

Anúncio

Mesmo com esse truque de eficiência, o modelo é enorme. A versão completa do Kimi K2.5 pesa aproximadamente 630 GB. Versões quantizadas, que comprimem a precisão do modelo para reduzir os requisitos de memória, ainda ocupam cerca de 381 GB. É por isso que o APFrisco precisou de 768 GB de Memória Persistente Intel Optane: nenhuma configuração padrão de RAM de consumo se aproxima de lidar com esse tipo de tamanho.

Os DIMMs Optane PMem são uma escolha interessante. A Intel encerrou sua linha Optane, o que significa que esses módulos são agora essencialmente hardware legado disponível no mercado de segunda mão. Eles são mais lentos que a DRAM tradicional, mas muito mais baratos por gigabyte, tornando-os uma solução incomum, mas surpreendentemente prática para carregar modelos massivos que de outra forma exigiriam infraestrutura de nível empresarial.

A RTX 3060 foi lançada no início de 2021 com 12 GB de VRAM. Foi projetada para jogos em 1080p e cargas de trabalho criativas leves, não para executar modelos de IA de ponta.

Como são típicos os deployments do Kimi K2.5

Inferência de alto desempenho para o Kimi K2.5 geralmente visa configurações com até 8 GPUs de alto desempenho. Esses setups oferecem velocidades entre 10 e mais de 300 tokens por segundo.

A demonstração foi compartilhada na comunidade r/LocalLLaMA do Reddit e posteriormente coberta pelo Tom’s Hardware.

O Kimi K2.5 foi lançado em 27 de janeiro de 2026 pela Moonshot AI. Ele possui capacidades multimodais e foi treinado com aproximadamente 15 trilhões de tokens visuais e textuais mistos. É um modelo de pesos abertos, o que significa que qualquer pessoa pode baixá-lo e executá-lo — exatamente o que tornou possível o experimento da APFrisco.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.