Aurora Optimizer reduz neurônios mortos em 25% no Muon, aumentando a eficiência de treinamento em 100x

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Aurora, um novo otimizador da Tilde Research, reduz neurônios mortos em 25% no Muon, uma ferramenta utilizada por modelos de ponta como DeepSeek V4 e Kimi K2.5. O otimizador Aurora, de código aberto, melhora a eficiência de treinamento em 100x. Um modelo de 1,1B treinado em 100B tokens com Aurora alcança o desempenho do Qwen3-1.7B treinado em 36T tokens. Esta notícia on-chain representa um avanço significativo na otimização de modelos. Aurora equilibra uniformidade e ortogonalidade nas atualizações, adicionando apenas 6% de sobrecarga. Já estabeleceu um novo padrão na otimização de modded-nanoGPT e é uma das principais notícias de altcoin de 2025.

Segundo monitoramento da Beating, a Tilde Research descobriu que o otimizador Muon, adotado por modelos líderes como DeepSeek V4, Kimi K2.5 e GLM-5, possui uma falha oculta: ele causa a morte permanente de mais de um quarto dos neurônios nas camadas MLP no início do treinamento. A equipe projetou e lançou como código aberto o otimizador alternativo Aurora. Um modelo de 1,1B apenas com cerca de 100B tokens alcançou desempenho equivalente ao Qwen3-1.7B treinado com 36T tokens em benchmarks de compreensão linguística como HellaSwag e Winogrande. O problema reside em uma característica matemática do Muon ao processar matrizes de pesos MLP. No início do treinamento, alguns neurônios acabam recebendo sinais de gradiente mais fracos. Otimalizadores tradicionais como AdamW normalizam parâmetro por parâmetro, naturalmente nivelando essa diferença; mas o passo de ortogonalização do Muon transmite os sinais fracos inalterados. Os neurônios fracos continuam recebendo atualizações fracas, tornando-se cada vez mais silenciosos, formando um ciclo vicioso de “os fortes ficam mais fortes”. Ao passo 500 do treinamento, mais de um quarto dos neurônios já estavam semanticamente mortos, desperdiçando capacidade de parâmetros. A versão anterior NorMuon tentou aliviar isso forçando o nivelamento da magnitude de atualização em cada linha, mas ao custo de destruir a ortogonalidade da matriz de atualização (a ortogonalização permite que cada atualização seja o mais eficiente possível — a principal vantagem do Muon), perdendo precisão de otimização. Aurora trata “atualização uniforme” e “ortogonalidade” como restrições conjuntas, usando iterações alternadas para satisfazer ambas simultaneamente: garantindo que cada neurônio tenha oportunidade justa de aprendizado sem sacrificar a precisão das atualizações. O Aurora sem ajuste de hiperparâmetros consome apenas 6% a mais de computação que o Muon e pode ser substituído diretamente. No benchmark otimizado modded-nanoGPT, o Aurora estabeleceu um novo recorde com 3175 passos. A vantagem do Aurora aumenta à medida que a largura do MLP cresce — quanto maior o fator de escala, mais notável a melhoria. O código e o modelo pré-treinado de 1,1B já estão disponíveis como código aberto.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.