Cerebras Systems ahora está sirviendo a Moonshot AI’s Kimi K2.6, un modelo de mezcla de expertos de 1 billón de parámetros con pesos abiertos, a 981 tokens de salida por segundo. Ese número, verificado por pruebas independientes de Artificial Analysis, representa 6.7 veces la velocidad del siguiente proveedor de nube GPU más rápido.
Para contexto, el proveedor de inferencia mediano es aproximadamente 23 veces más lento.
Cómo se ven realmente los números en la práctica
En una carga de trabajo representativa de codificación agente, con 10,000 tokens de entrada y 500 tokens de salida, la configuración impulsada por Cerebras entregó una respuesta completa en 5.6 segundos.
La misma tarea en el endpoint oficial de Kimi tardó 163.7 segundos. Eso representa una mejora de 29 veces en la latencia de extremo a extremo.
El modelo Kimi K2.6 en sí mismo merece ser comprendido. Desarrollado por Moonshot AI y lanzado el 20 de abril de 2026, cuenta con capacidades multimodales y agenciales. Si bien el recuento total de parámetros alcanza los 1 billón, solo 32 mil millones de parámetros están activos en cualquier momento dado, gracias a la arquitectura MoE.
Por qué la arquitectura a escala de oblea cambia las matemáticas
La tecnología principal de Cerebras es el Wafer-Scale Engine, un chip que es una oblea de silicio completa. Los chips tradicionales se cortan de las obleas en pequeños dies individuales. Cerebras omite la parte del corte y utiliza la oblea entera.
Cerebras afirma tener más de 200 veces el ancho de banda de NVLink de NVIDIA, la tecnología de interconexión que une las GPU en clústeres de centros de datos. Al ejecutar inferencia en modelos grandes, el cuello de botella es casi siempre el ancho de banda de memoria, no el cómputo bruto. Los pesos deben leerse de la memoria y enviarse a los procesadores para cada token generado.
El contexto empresarial: una empresa recién cotizada en bolsa con algo que demostrar
Cerebras completó su IPO en mayo de 2026 con una valoración de $95 mil millones, convirtiéndose en la IPO tecnológica más grande del año.
El resultado de 981 tokens por segundo es la evidencia más concreta hasta ahora de que la mitad de la tesis sobre la velocidad se sostiene. Cerebras no ha publicado comparaciones detalladas de precios junto con este benchmark.
Al ofrecer uno de los modelos de peso abierto más destacados de un importante laboratorio de IA chino, Cerebras demuestra que su hardware puede manejar los modelos que los desarrolladores realmente desean utilizar.
