L'architecture ZCube réduit les coûts et améliore les performances de l'inférence des grands modèles

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
La mise à niveau du réseau ZCube résout les problèmes de séparation PD dans l'inférence de grands modèles, selon les actualités on-chain. Développée par ZhiPu, YuXun Network et l'Université de Tsinghua, cette architecture est désormais active dans GLM-5.1. Elle réduit les coûts des commutateurs et des modules optiques de 33 %, augmente le débit des GPU de 15 % et diminue la latence P99 du premier token de 40,6 %.

Message AIMPACT, 21 mai (UTC+8), selon le suivi de Beating, face au problème croissant de congestion réseau structurelle dans le déploiement séparé des grands modèles PD (Prefill-Decode), Zhipu, Yuxun Network et l'Université Tsinghua ont mené conjointement des recherches et mis en œuvre l'architecture de réseau ZCube dans l'environnement de production en ligne GLM-5.1 sur mille GPU. Avec l'adoption grandissante des contextes longs et de l'inférence PD séparée, la transmission inter-nœuds du KV Cache entraîne une forte asymétrie du trafic d'inférence, rendant l'architecture traditionnelle ROFT (Rail-Optimized Fat-Tree) particulièrement sujette à des points chauds locaux et à des conflits de lien. ZCube élimine les commutateurs Spine et adopte une topologie entièrement plane (diamètre réseau de 2 sauts), combinée à un mécanisme d'accès hybride mono/tracé, réalisant ainsi au niveau architecture un équilibrage de charge du trafic entre tous les commutateurs inter-nœuds. Lors de tests de référence sur un cluster de production réel, en conservant les GPU, la pile logicielle et les applications inchangés, l'architecture ZCube a réduit les dépenses matérielles en commutateurs et modules optiques de 33 % par rapport à l'architecture traditionnelle, tout en augmentant le débit moyen d'inférence des GPU de 15 % et en réduisant le P99 du temps de latence du premier token (TTFT) de 40,6 %. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.