Aurora Optimizer reduz neurônios mortos em 25% no Muon, aumentando a eficiência de treinamento em 100x

Segundo monitoramento da Beating, a Tilde Research descobriu que o otimizador Muon, adotado por modelos líderes como DeepSeek V4, Kimi K2.5 e GLM-5, possui uma falha oculta: ele causa a morte permanente de mais de um quarto dos neurônios nas camadas MLP no início do treinamento. A equipe projetou e lançou como código aberto o otimizador alternativo Aurora. Um modelo de 1,1B apenas com cerca de 100B tokens alcançou desempenho equivalente ao Qwen3-1.7B treinado com 36T tokens em benchmarks de compreensão linguística como HellaSwag e Winogrande. O problema reside em uma característica matemática do Muon ao processar matrizes de pesos MLP. No início do treinamento, alguns neurônios acabam recebendo sinais de gradiente mais fracos. Otimalizadores tradicionais como AdamW normalizam parâmetro por parâmetro, naturalmente nivelando essa diferença; mas o passo de ortogonalização do Muon transmite os sinais fracos inalterados. Os neurônios fracos continuam recebendo atualizações fracas, tornando-se cada vez mais silenciosos, formando um ciclo vicioso de “os fortes ficam mais fortes”. Ao passo 500 do treinamento, mais de um quarto dos neurônios já estavam semanticamente mortos, desperdiçando capacidade de parâmetros. A versão anterior NorMuon tentou aliviar isso forçando o nivelamento da magnitude de atualização em cada linha, mas ao custo de destruir a ortogonalidade da matriz de atualização (a ortogonalização permite que cada atualização seja o mais eficiente possível — a principal vantagem do Muon), perdendo precisão de otimização. Aurora trata “atualização uniforme” e “ortogonalidade” como restrições conjuntas, usando iterações alternadas para satisfazer ambas simultaneamente: garantindo que cada neurônio tenha oportunidade justa de aprendizado sem sacrificar a precisão das atualizações. O Aurora sem ajuste de hiperparâmetros consome apenas 6% a mais de computação que o Muon e pode ser substituído diretamente. No benchmark otimizado modded-nanoGPT, o Aurora estabeleceu um novo recorde com 3175 passos. A vantagem do Aurora aumenta à medida que a largura do MLP cresce — quanto maior o fator de escala, mais notável a melhoria. O código e o modelo pré-treinado de 1,1B já estão disponíveis como código aberto.