Mensaje de AIMPACT, 21 de mayo (UTC+8): según el monitoreo de Beating, frente al creciente problema de congestión de red estructural en la implementación separada de grandes modelos PD (Prefill-Decode), Zhipu, Yuxun Network y la Universidad Tsinghua llevaron a cabo una colaboración conjunta y propusieron, además de implementar en producción en línea en el entorno de mil GPUs de GLM-5.1, la arquitectura de red ZCube. A medida que el razonamiento con largos contextos y la separación PD se vuelven dominantes, la transmisión inter-nodo del KV Cache hace que el tráfico de inferencia presente una marcada asimetría, lo que hace que la arquitectura tradicional ROFT (Rail-Optimized Fat-Tree) genere fácilmente puntos calientes locales y conflictos de enlace. ZCube elimina los switches de la capa Spine, adopta una topología completamente plana (diámetro de red de 2 saltos) y combina un mecanismo de acceso híbrido de una sola y múltiples vías, logrando así un equilibrio de carga de tráfico entre todos los switches inter-nodo a nivel arquitectónico. En pruebas de referencia en clústeres de producción reales, manteniendo constantes las GPU, la pila de software y la aplicación, la arquitectura ZCube redujo un 33 % los gastos en switches y módulos ópticos en comparación con la arquitectura tradicional, mientras aumentó un 15 % el rendimiento promedio de inferencia de las GPU y disminuyó un 40,6 % el percentil P99 del tiempo de latencia del primer token (TTFT). (Fuente: BlockBeats)
La arquitectura de ZCube reduce costos y mejora el rendimiento en la inferencia de modelos grandes
KuCoinFlashCompartir






La actualización de la red ZCube aborda los problemas de separación PD en la inferencia de modelos grandes, según se informa en las noticias en cadena. Desarrollada por ZhiPu, YuXun Network y la Universidad de Tsinghua, la arquitectura ya está activa en GLM-5.1. Reduce los costos de conmutación y módulos ópticos en un 33%, aumenta el rendimiento de la GPU en un 15% y disminuye la latencia P99 del primer token en un 40,6%.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.