Huawei y USTC colaboran para romper el monopolio de NVIDIA, la velocidad de cómputo del modelo Ascend A3 aumenta un 58%
KuCoinFlash
Compartir
Resumen
Huawei y la USTC han desarrollado el marco HyperParallel-MoE para mejorar el rendimiento del chip Ascend A3 en el entrenamiento de modelos grandes. El diseño mejora la programación al gestionar colas de hardware a nivel de mosaico, permitiendo que los núcleos AIC y AIV funcionen en paralelo. Las pruebas en un clúster de 64 nodos mostraron una mejora del 58% en la velocidad de cómputo de expertos y un aumento del 8-9% en la velocidad de entrenamiento de extremo a extremo. Este avance podría desplazar los niveles de soporte y resistencia en el mercado de chips de IA, ofreciendo una mejor relación riesgo-recompensa para la adopción tecnológica nacional.
ME AI Noticia, según el monitoreo de Beating, en la evolución a gran escala de arquitecturas MoE, entrenar modelos grandes con chips nacionales Ascend se ha convertido en una dirección clave para construir capacidad de cómputo de IA autónoma y controlable. Sin embargo, la mayoría de los marcos de modelos grandes están desarrollados sobre el ecosistema CUDA de NVIDIA, y al portarlos directamente a la plataforma Ascend, suelen enfrentar desafíos como un equilibrio desigual en la programación de colas de hardware y una baja utilización del poder de cómputo. La Universidad de Ciencia y Tecnología de China, Huawei y la Universidad de Pekín han lanzado conjuntamente el marco de compilación y programación HyperParallel-MoE, que realiza un control a nivel de mosaico (tile-level) sobre las colas de hardware únicas del Ascend A3, con el objetivo de superar el cuello de botella de eficiencia en la programación paralela de capacidad de cómputo heterogénea. El Ascend A3 posee dos tipos de núcleos: el AIC se encarga de la multiplicación matricial, mientras que el AIV maneja cálculos vectoriales y comunicación. Sin embargo, bajo la programación secuencial tradicional de operadores, ambos tipos de núcleos solo pueden trabajar alternadamente y permanecer inactivos por turnos. Los datos de prueba muestran que, al ejecutar un modelo grande estilo DeepSeek de 671B en un clúster de 256 nodos, la utilización del AIC fue solo del 67%, y el 39% de la latencia en la comunicación de enrutamiento de expertos se expuso en la ruta de cálculo crítica. Las tres modificaciones principales de HyperParallel-MoE son: primero, diseñar una primitiva de escritura unidireccional impulsada por AIV, que active el cálculo tan pronto como llegue un mosaico de datos, sin necesidad de esperar a que todo el lote esté completo; segundo, introducir la generación de tareas a nivel de mosaico con conciencia de dependencias, unificando la abstracción de operadores de comunicación y cálculo; y tercero, utilizar un programador estático para generar previamente secuencias de tareas que impulsen la ejecución paralela de ambos tipos de núcleos dentro de un solo kernel, aprovechando la caché L2 de alta velocidad para compartir resultados intermedios y reducir la latencia asociada con la escritura y lectura en memoria HBM lenta. Las pruebas muestran que, bajo un enrutamiento equilibrado en 64 nodos, la latencia del módulo encargado del cálculo de expertos (MoE-FFN) se redujo aproximadamente un 36%, lo que equivale a un aumento máximo del 58% en la velocidad de procesamiento de datos (es decir, una aceleración de 1.49 a 1.58 veces). En la ejecución extremo a extremo del sistema completo, la velocidad por paso de entrenamiento también aumentó entre un 8% y un 9%. Esto demuestra que la eficiencia real del Ascend no depende únicamente de las especificaciones del hardware, sino también de si el compilador y el entorno en tiempo de ejecución pueden programar eficientemente los núcleos AIC/AIV. (Fuente: BlockBeats)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.