Huawei e USTC colaboram para quebrar o monopólio da NVIDIA, velocidade de computação do modelo Ascend A3 aumenta 58%

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Huawei e a USTC desenvolveram o framework HyperParallel-MoE para aumentar o desempenho do chip Ascend A3 no treinamento de modelos grandes. O design melhora o agendamento gerenciando filas de hardware no nível de tile, permitindo que os núcleos AIC e AIV operem em paralelo. Testes em um cluster de 64 nodes mostraram um ganho de 58% na velocidade de cálculo de especialistas e um aumento de 8-9% na velocidade de treinamento ponto a ponto. A iniciativa pode alterar os níveis de suporte e resistência no mercado de chips de IA, oferecendo uma melhor relação risco-recompensa para a adoção tecnológica doméstica.
ME AI mensagem, segundo monitoramento da Beating, no contexto da evolução de arquiteturas MoE em larga escala, treinar grandes modelos utilizando chips nacionais Ascend tornou-se uma direção-chave para construir capacidade de IA autônoma e controlável. No entanto, a maioria dos principais frameworks de grandes modelos foi desenvolvida com base no ecossistema CUDA da NVIDIA, e ao portá-los diretamente para a plataforma Ascend, enfrentam-se desafios como escalonamento desigual de filas de hardware e baixa utilização de capacidade de processamento. A Universidade da Ciência e Tecnologia da China, a Huawei e a Universidade de Pequim lançaram conjuntamente o framework de compilação e escalonamento HyperParallel-MoE, que realiza controle em nível de tile (tile-level) nas filas de hardware únicas do Ascend A3, visando superar o gargalo de eficiência energética no escalonamento paralelo de capacidades heterogêneas. O Ascend A3 possui dois tipos de núcleos: o AIC responsável por multiplicações matriciais e o AIV dedicado a cálculos vetoriais e comunicação. Contudo, sob o escalonamento sequencial tradicional de operadores, esses dois tipos de núcleos só podem operar alternadamente, ficando em descanso por turnos. Dados de testes mostram que, em um cluster de 256 nós executando um grande modelo DeepSeek-style de 671B, a utilização do AIC foi de apenas 67%, e 39% da latência de comunicação na roteação de especialistas foi exposta na trajetória crítica de cálculo. As principais modificações do HyperParallel-MoE são três. Primeiro, foi projetado um primitivo de escrita unidirecional impulsionado pelo AIV, que aciona o cálculo assim que o tile de dados chega, sem necessidade de aguardar o término do lote inteiro. Segundo, foi introduzida a geração de tarefas em tile com consciência de dependência, unificando a abstração dos operadores de comunicação e cálculo. Terceiro, um escalonador estático pré-gera sequências de tarefas, conduzindo os dois tipos de núcleos em paralelo dentro de um único kernel e aproveitando o cache L2 de alta velocidade para compartilhar resultados intermediários, reduzindo a latência de gravação e leitura da memória HBM lenta. Os testes mostram que, em 64 nós com roteamento balanceado, a latência do módulo responsável pelo cálculo dos especialistas (MoE-FFN) foi reduzida em cerca de 36%, equivalente a um aumento máximo de 58% na velocidade de processamento de dados (ou seja, aceleração de 1,49 a 1,58 vezes). No funcionamento end-to-end da máquina inteira, a velocidade de treinamento por etapa também aumentou em 8% a 9%. Isso demonstra que a eficiência real do Ascend não depende apenas das especificações do hardware, mas também da capacidade do compilador e do tempo de execução em escalonar eficientemente os núcleos AIC/AIV. (Fonte: BlockBeats)
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.