Aurora Optimizer reduce los neuronas muertas en un 25% en Muon y aumenta la eficiencia de entrenamiento 100 veces

Según el monitoreo de Beating, Tilde Research descubrió que el optimizador Muon, adoptado por modelos líderes como DeepSeek V4, Kimi K2.5 y GLM-5, tiene un defecto oculto: en las etapas iniciales del entrenamiento, hace que más de una cuarta parte de las neuronas en las capas MLP mueran permanentemente. El equipo diseñó en consecuencia un optimizador alternativo llamado Aurora y lo lanzó como código abierto. Un modelo de 1.1B solo con aproximadamente 100B tokens logró empatar con Qwen3-1.7B entrenado con 36T tokens en benchmarks de comprensión del lenguaje como HellaSwag y Winogrande. El problema radica en una característica matemática del manejo de la matriz de pesos MLP por parte de Muon. En las etapas iniciales, algunas neuronas reciben accidentalmente señales de gradiente más débiles. Optimizadores tradicionales como AdamW normalizan por parámetro, equilibrando naturalmente esta diferencia; pero el paso de ortogonalización de Muon transmite sin modificar las señales débiles. Las neuronas débiles reciben actualizaciones continuamente débiles, volviéndose cada vez más silenciosas, formando un bucle mortal de “los fuertes se vuelven más fuertes”. Para el paso 500 del entrenamiento, ya más de una cuarta parte de las neuronas habían muerto sustancialmente, desperdiciando innecesariamente la capacidad de parámetros. La versión mejorada previa, NorMuon, alivió este problema forzando a igualar la magnitud de actualización por fila, pero a costa de destruir la ortogonalidad de la matriz de actualización (la ortogonalización permite que cada actualización sea lo más eficiente posible, siendo la ventaja central de Muon), lo que redujo la precisión de optimización. Aurora establece como restricciones conjuntas “actualización uniforme” y “ortogonalidad”, satisfaciéndolas simultáneamente mediante iteraciones alternadas: garantiza a cada neurona una oportunidad justa de aprendizaje sin sacrificar la precisión de actualización. Aurora sin ajuste de hiperparámetros solo implica un 6% adicional en costo computacional respecto a Muon y puede reemplazarse directamente. En la puntuación optimizada modded-nanoGPT, Aurora estableció un nuevo récord con 3175 pasos. La ventaja de Aurora se amplifica a medida que aumenta el ancho del MLP; cuanto mayor sea el factor de escala, más notable será la mejora. El código y el modelo preentrenado de 1.1B ya están disponibles como código abierto.