Selon les analyses de Beating, Tilde Research a découvert un défaut caché dans l'optimiseur Muon, adopté par des modèles de pointe tels que DeepSeek V4, Kimi K2.5 et GLM-5 : il provoque la mort permanente de plus d'un quart des neurones dans les couches MLP dès les premières étapes d'entraînement. L'équipe a conçu et mis à disposition en open source un optimiseur de remplacement, Aurora. Un modèle de 1,1 milliard de paramètres, entraîné avec seulement environ 100 milliards de tokens, a atteint des performances équivalentes à celles de Qwen3-1.7B entraîné sur 36 téra-tokens sur des benchmarks de compréhension linguistique tels que HellaSwag et Winogrande. Le problème réside dans une propriété mathématique du traitement des matrices de poids MLP par Muon. Au début de l'entraînement, certains neurones reçoivent accidentellement des signaux de gradient plus faibles. Les optimiseurs traditionnels comme AdamW normalisent les paramètres individuellement, atténuant naturellement ces différences ; mais l'étape d'orthogonalisation de Muon transmet intactes les faibles signaux. Les neurones faibles reçoivent ainsi des mises à jour faibles de manière continue, deviennent de plus en plus silencieux et entrent dans un cercle vicieux « les forts deviennent plus forts ». À l'étape 500, plus d'un quart des neurones sont déjà morts de manière substantielle, gaspillant ainsi la capacité paramétrique. La version améliorée précédente, NorMuon, atténue ce problème en forçant une égalisation de l'amplitude des mises à jour par ligne, mais au prix de la destruction de l'orthogonalité de la matrice de mise à jour (l'orthogonalisation permettant à chaque mise à jour d'être aussi efficace que possible, ce qui constitue l'avantage fondamental de Muon), entraînant une perte de précision d'optimisation. Aurora traite « l'égalité des mises à jour » et « l'orthogonalité » comme des contraintes conjointes, en utilisant une itération alternée pour satisfaire simultanément les deux : il garantit à chaque neurone une chance équitable d'apprentissage sans sacrifier la précision des mises à jour. Aurora, sans réglage, ne coûte que 6 % de surcharge calculatoire supplémentaire par rapport à Muon et peut être remplacé directement. Dans les tests d'optimisation modded-nanoGPT, Aurora a établi un nouveau record avec 3 175 étapes. L'avantage d'Aurora s'amplifie avec la largeur croissante des couches MLP : plus le facteur d'extension est élevé, plus l'amélioration est marquée. Le code et le modèle pré-entraîné de 1,1 milliard de paramètres sont désormais open source.
Aurora Optimizer réduit les neurones morts de 25 % dans Muon et augmente l'efficacité d'entraînement de 100 fois
MarsBitPartager






Aurora, un nouvel optimiseur de Tilde Research, réduit les neurones morts de 25 % dans Muon, un outil utilisé par les meilleurs modèles comme DeepSeek V4 et Kimi K2.5. L'optimiseur open-source Aurora améliore l'efficacité d'entraînement de 100 fois. Un modèle de 1,1 milliard d'paramètres entraîné sur 100 milliards de jetons avec Aurora équivaut à Qwen3-1,7B entraîné sur 36 térajetons. Cette actualité on-chain marque une avancée majeure dans l'optimisation des modèles. Aurora équilibre l'uniformité des mises à jour et l'orthogonalité, en ajoutant seulement 6 % de surcharge. Il a déjà établi un nouveau référentiel pour l'optimisation de modded-nanoGPT et constitue une des principales actualités altcoin de 2025.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.