Aurora Optimizer réduit les neurones morts de 25 % dans Muon et augmente l'efficacité d'entraînement de 100 fois

Selon les analyses de Beating, Tilde Research a découvert un défaut caché dans l'optimiseur Muon, adopté par des modèles de pointe tels que DeepSeek V4, Kimi K2.5 et GLM-5 : il provoque la mort permanente de plus d'un quart des neurones dans les couches MLP dès les premières étapes d'entraînement. L'équipe a conçu et mis à disposition en open source un optimiseur de remplacement, Aurora. Un modèle de 1,1 milliard de paramètres, entraîné avec seulement environ 100 milliards de tokens, a atteint des performances équivalentes à celles de Qwen3-1.7B entraîné sur 36 téra-tokens sur des benchmarks de compréhension linguistique tels que HellaSwag et Winogrande. Le problème réside dans une propriété mathématique du traitement des matrices de poids MLP par Muon. Au début de l'entraînement, certains neurones reçoivent accidentellement des signaux de gradient plus faibles. Les optimiseurs traditionnels comme AdamW normalisent les paramètres individuellement, atténuant naturellement ces différences ; mais l'étape d'orthogonalisation de Muon transmet intactes les faibles signaux. Les neurones faibles reçoivent ainsi des mises à jour faibles de manière continue, deviennent de plus en plus silencieux et entrent dans un cercle vicieux « les forts deviennent plus forts ». À l'étape 500, plus d'un quart des neurones sont déjà morts de manière substantielle, gaspillant ainsi la capacité paramétrique. La version améliorée précédente, NorMuon, atténue ce problème en forçant une égalisation de l'amplitude des mises à jour par ligne, mais au prix de la destruction de l'orthogonalité de la matrice de mise à jour (l'orthogonalisation permettant à chaque mise à jour d'être aussi efficace que possible, ce qui constitue l'avantage fondamental de Muon), entraînant une perte de précision d'optimisation. Aurora traite « l'égalité des mises à jour » et « l'orthogonalité » comme des contraintes conjointes, en utilisant une itération alternée pour satisfaire simultanément les deux : il garantit à chaque neurone une chance équitable d'apprentissage sans sacrifier la précision des mises à jour. Aurora, sans réglage, ne coûte que 6 % de surcharge calculatoire supplémentaire par rapport à Muon et peut être remplacé directement. Dans les tests d'optimisation modded-nanoGPT, Aurora a établi un nouveau record avec 3 175 étapes. L'avantage d'Aurora s'amplifie avec la largeur croissante des couches MLP : plus le facteur d'extension est élevé, plus l'amélioration est marquée. Le code et le modèle pré-entraîné de 1,1 milliard de paramètres sont désormais open source.