Huawei e USTC colaboram para quebrar o monopólio da NVIDIA, velocidade de computação do modelo Ascend A3 aumenta 58%

ME AI mensagem, segundo monitoramento da Beating, no contexto da evolução de arquiteturas MoE em larga escala, treinar grandes modelos utilizando chips nacionais Ascend tornou-se uma direção-chave para construir capacidade de IA autônoma e controlável. No entanto, a maioria dos principais frameworks de grandes modelos foi desenvolvida com base no ecossistema CUDA da NVIDIA, e ao portá-los diretamente para a plataforma Ascend, enfrentam-se desafios como escalonamento desigual de filas de hardware e baixa utilização de capacidade de processamento. A Universidade da Ciência e Tecnologia da China, a Huawei e a Universidade de Pequim lançaram conjuntamente o framework de compilação e escalonamento HyperParallel-MoE, que realiza controle em nível de tile (tile-level) nas filas de hardware únicas do Ascend A3, visando superar o gargalo de eficiência energética no escalonamento paralelo de capacidades heterogêneas. O Ascend A3 possui dois tipos de núcleos: o AIC responsável por multiplicações matriciais e o AIV dedicado a cálculos vetoriais e comunicação. Contudo, sob o escalonamento sequencial tradicional de operadores, esses dois tipos de núcleos só podem operar alternadamente, ficando em descanso por turnos. Dados de testes mostram que, em um cluster de 256 nós executando um grande modelo DeepSeek-style de 671B, a utilização do AIC foi de apenas 67%, e 39% da latência de comunicação na roteação de especialistas foi exposta na trajetória crítica de cálculo. As principais modificações do HyperParallel-MoE são três. Primeiro, foi projetado um primitivo de escrita unidirecional impulsionado pelo AIV, que aciona o cálculo assim que o tile de dados chega, sem necessidade de aguardar o término do lote inteiro. Segundo, foi introduzida a geração de tarefas em tile com consciência de dependência, unificando a abstração dos operadores de comunicação e cálculo. Terceiro, um escalonador estático pré-gera sequências de tarefas, conduzindo os dois tipos de núcleos em paralelo dentro de um único kernel e aproveitando o cache L2 de alta velocidade para compartilhar resultados intermediários, reduzindo a latência de gravação e leitura da memória HBM lenta. Os testes mostram que, em 64 nós com roteamento balanceado, a latência do módulo responsável pelo cálculo dos especialistas (MoE-FFN) foi reduzida em cerca de 36%, equivalente a um aumento máximo de 58% na velocidade de processamento de dados (ou seja, aceleração de 1,49 a 1,58 vezes). No funcionamento end-to-end da máquina inteira, a velocidade de treinamento por etapa também aumentou em 8% a 9%. Isso demonstra que a eficiência real do Ascend não depende apenas das especificações do hardware, mas também da capacidade do compilador e do tempo de execução em escalonar eficientemente os núcleos AIC/AIV. (Fonte: BlockBeats)