Huawei y USTC colaboran para romper el monopolio de NVIDIA, la velocidad de cómputo del modelo Ascend A3 aumenta un 58%

ME AI Noticia, según el monitoreo de Beating, en la evolución a gran escala de arquitecturas MoE, entrenar modelos grandes con chips nacionales Ascend se ha convertido en una dirección clave para construir capacidad de cómputo de IA autónoma y controlable. Sin embargo, la mayoría de los marcos de modelos grandes están desarrollados sobre el ecosistema CUDA de NVIDIA, y al portarlos directamente a la plataforma Ascend, suelen enfrentar desafíos como un equilibrio desigual en la programación de colas de hardware y una baja utilización del poder de cómputo. La Universidad de Ciencia y Tecnología de China, Huawei y la Universidad de Pekín han lanzado conjuntamente el marco de compilación y programación HyperParallel-MoE, que realiza un control a nivel de mosaico (tile-level) sobre las colas de hardware únicas del Ascend A3, con el objetivo de superar el cuello de botella de eficiencia en la programación paralela de capacidad de cómputo heterogénea. El Ascend A3 posee dos tipos de núcleos: el AIC se encarga de la multiplicación matricial, mientras que el AIV maneja cálculos vectoriales y comunicación. Sin embargo, bajo la programación secuencial tradicional de operadores, ambos tipos de núcleos solo pueden trabajar alternadamente y permanecer inactivos por turnos. Los datos de prueba muestran que, al ejecutar un modelo grande estilo DeepSeek de 671B en un clúster de 256 nodos, la utilización del AIC fue solo del 67%, y el 39% de la latencia en la comunicación de enrutamiento de expertos se expuso en la ruta de cálculo crítica. Las tres modificaciones principales de HyperParallel-MoE son: primero, diseñar una primitiva de escritura unidireccional impulsada por AIV, que active el cálculo tan pronto como llegue un mosaico de datos, sin necesidad de esperar a que todo el lote esté completo; segundo, introducir la generación de tareas a nivel de mosaico con conciencia de dependencias, unificando la abstracción de operadores de comunicación y cálculo; y tercero, utilizar un programador estático para generar previamente secuencias de tareas que impulsen la ejecución paralela de ambos tipos de núcleos dentro de un solo kernel, aprovechando la caché L2 de alta velocidad para compartir resultados intermedios y reducir la latencia asociada con la escritura y lectura en memoria HBM lenta. Las pruebas muestran que, bajo un enrutamiento equilibrado en 64 nodos, la latencia del módulo encargado del cálculo de expertos (MoE-FFN) se redujo aproximadamente un 36%, lo que equivale a un aumento máximo del 58% en la velocidad de procesamiento de datos (es decir, una aceleración de 1.49 a 1.58 veces). En la ejecución extremo a extremo del sistema completo, la velocidad por paso de entrenamiento también aumentó entre un 8% y un 9%. Esto demuestra que la eficiencia real del Ascend no depende únicamente de las especificaciones del hardware, sino también de si el compilador y el entorno en tiempo de ejecución pueden programar eficientemente los núcleos AIC/AIV. (Fuente: BlockBeats)