Cerebras prueba el modelo Kimi K2.6 con un aumento de velocidad de 29x en tareas de texto largo

KuCoinFlash

Momento del lanzamiento: 20/05/2026, 11:12:40

Resumen

Cerebras reveló el 20 de mayo (UTC+8) que ha probado el modelo Kimi K2.6 de un billón de parámetros utilizando sus chips de escala de oblea. Al montar los chips directamente sobre una oblea completa de 12 pulgadas, la empresa redujo los retrasos de comunicación. Según Artificial Analysis, el modelo generó texto a 981 tokens/s, 6.7 veces más rápido que los servicios estándar de GPU. En una prueba de texto largo con 10,000 tokens de entrada y 500 de salida, el tiempo de respuesta disminuyó de 163.7 segundos a 5.6 segundos, una mejora de 29 veces. Los datos en cadena continúan destacando las mejoras de rendimiento en la infraestructura de IA.

Noticias de ME, 20 de mayo (UTC+8): según el monitoreo de Beating, la empresa de chips a nivel de oblea Cerebras anunció el lanzamiento del modelo de gran escala Kimi K2.6 con billones de parámetros en pruebas empresariales, eliminando por completo la latencia de comunicación a nivel de placa al integrar directamente el chip sobre una oblea de silicio de 12 pulgadas. Las pruebas realizadas por la institución independiente Artificial Analysis mostraron que su velocidad de generación alcanza 981 tokens/s, 6.7 veces más rápido que los servicios en la nube basados en GPU principales. En tareas de texto largo con 10,000 tokens de entrada y 500 tokens de salida, el tiempo total de respuesta se redujo de 163.7 segundos en la interfaz oficial de Kimi a solo 5.6 segundos, lo que representa una aceleración de 29 veces. Debido a que los pesos del modelo se distribuyen entre múltiples obleas para transmitir activaciones en flujo, la comunicación entre capas opera completamente sobre la red de tejido integrada en la oblea, logrando un ancho de banda físico de comunicación más de 200 veces superior al de NVLink en la arquitectura NVIDIA NVL72. Combinado con optimizaciones de cómputo distribuido, Kimi K2.6 almacena los pesos originales en formato de 4 bits (4 bits) con baja pérdida, utiliza números en coma flotante de 16 bits (16 bits) durante el cálculo para mantener la precisión, y emplea núcleos de operadores personalizados junto con decodificación especulativa para lograr ejecución en tiempo real. (Fuente: BlockBeats)

Fuente:Mostrar original

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.