Huawei et l'USTC collaborent pour briser le monopole de NVIDIA, la vitesse de calcul du modèle Ascend A3 augmente de 58 %

ME AI selon les données de Beating Monitoring, l'entraînement de grands modèles à l'aide de puces nationales Ascend devient une direction clé pour construire une puissance de calcul IA autonome et maîtrisée dans le cadre de l'évolution des architectures MoE à grande échelle. Toutefois, la plupart des frameworks de grands modèles主流 sont développés sur l'écosystème CUDA de NVIDIA, et leur migration directe vers la plateforme Ascend rencontre souvent des défis tels qu'un déséquilibre dans la planification des files d'attente matérielles et une faible utilisation de la puissance de calcul. L'Université des sciences et technologies de Chine, Huawei et l'Université de Pékin ont conjointement lancé le cadre de compilation et de planification HyperParallel-MoE, conçu pour effectuer un contrôle au niveau des tuiles (tile-level) sur les files d'attente matérielles uniques du Ascend A3, dans le but de surmonter les goulets d'étranglement énergétiques liés à la planification parallèle des ressources hétérogènes. Le Ascend A3 possède deux types de cœurs : l'AIC gère les multiplications matricielles, tandis que l'AIV traite les calculs vectoriels et les communications. Toutefois, dans un planification séquentielle traditionnelle des opérateurs, ces deux types de cœurs ne peuvent fonctionner qu'en alternance, entraînant des périodes d'inactivité successives. Les données de tests montrent que, lors de l'exécution d'un modèle de grande taille au style DeepSeek de 671B sur un cluster de 256 nœuds, l'utilisation du AIC n'était que de 67 %, et 39 % des délais de communication liés au routage des experts se produisaient sur le chemin critique du calcul. Les modifications fondamentales de HyperParallel-MoE sont au nombre de trois. Premièrement, il conçoit une primitive d'écriture unilatérale pilotée par l'AIV, permettant au calcul d'être déclenché dès l'arrivée d'une tuile de données, sans attendre la réception complète du lot. Deuxièmement, il introduit une génération de tâches au niveau des tuiles sensible aux dépendances, unifiant l'abstraction des opérateurs de communication et de calcul. Troisièmement, il utilise un planificateur statique pour pré-générer une séquence de tâches, pilotant en parallèle les deux types de cœurs au sein d'un seul kernel, tout en exploitant le cache L2 rapide pour partager les résultats intermédiaires et réduire les délais liés à l'écriture et à la lecture dans la mémoire HBM lente. Les tests montrent que, dans un routage équilibré sur 64 nœuds, le délai du module de calcul des experts (MoE-FFN) est réduit d'environ 36 %, ce qui équivaut à une augmentation maximale de 58 % de la vitesse de traitement des données (soit une accélération de 1,49 à 1,58 fois). Dans l'exécution end-to-end complète, la vitesse d'entraînement par étape est également augmentée de 8 % à 9 %. Cela démontre que l'efficacité réelle du Ascend ne dépend pas uniquement des spécifications matérielles, mais aussi de la capacité du compilateur et du runtime à planifier efficacement les cœurs AIC/AIV. (Source : BlockBeats)