Un modelo de IA con un billón de parámetros acaba de ejecutarse en una tarjeta gráfica que la mayoría de los jugadores considerarían de gama media.
Un entusiasta chino de la IA conocido como APFrisco demostró el modelo Kimi K2.5 de Moonshot AI, un modelo de lenguaje grande de tipo Mixture-of-Experts (MoE) con un total de 1 billón de parámetros, ejecutándose en una sola GPU Nvidia RTX 3060 junto con 768 GB de memoria persistente Intel Optane. La configuración logró aproximadamente cuatro tokens por segundo, lo cual es lento según los estándares de producción, pero notable dado el hardware involucrado.
Cómo una GPU de gama media maneja un billón de parámetros
Kimi K2.5 no activa todos los 1 billón de parámetros a la vez. Para cada token generado, solo se activan 32 mil millones de parámetros. El resto permanecen inactivos, esperando su turno.
A pesar de ese truco de eficiencia, el modelo es enorme. La versión completa de Kimi K2.5 pesa aproximadamente 630 GB. Las versiones cuantizadas, que comprimen la precisión del modelo para reducir los requisitos de memoria, aún alcanzan alrededor de 381 GB. Por eso, APFrisco necesitó 768 GB de memoria persistente Intel Optane: ningún conjunto estándar de RAM para consumidores se acerca a manejar ese tipo de tamaño.
Los DIMMs de Optane PMem son una opción interesante. Intel discontinuó su línea Optane, lo que significa que estos módulos ahora son esencialmente hardware heredado que circula en el mercado de segunda mano. Son más lentos que la DRAM tradicional, pero mucho más baratos por gigabyte, lo que los convierte en una solución inusual pero sorprendentemente práctica para cargar modelos masivos que de otro modo requerirían infraestructura de nivel empresarial.
La RTX 3060 se lanzó a principios de 2021 con 12 GB de VRAM. Fue diseñada para juegos en 1080p y cargas de trabajo creativas ligeras, no para ejecutar modelos de IA de vanguardia.
¿Cómo son los despliegues típicos de Kimi K2.5?
La inferencia de alto rendimiento para Kimi K2.5 generalmente se dirige a configuraciones con hasta 8 GPU de gama alta. Esas configuraciones ofrecen velocidades entre 10 y más de 300 tokens por segundo.
La demostración se compartió en la comunidad r/LocalLLaMA de Reddit y posteriormente fue cubierta por Tom’s Hardware.
Kimi K2.5 fue lanzado el 27 de enero de 2026 por Moonshot AI. Cuenta con capacidades multimodales y fue entrenado con aproximadamente 15 billones de tokens visuales y de texto mixtos. Es un modelo de pesos abiertos, lo que significa que cualquiera puede descargarlo y ejecutarlo, precisamente lo que hizo posible el experimento de APFrisco en primer lugar.
