Aurora Optimizer reduce los neuronas muertas en un 25% en Muon y aumenta la eficiencia de entrenamiento 100 veces

icon MarsBit
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Aurora, un nuevo optimizador de Tilde Research, reduce los neuronas muertas en un 25% en Muon, una herramienta utilizada por modelos de primer nivel como DeepSeek V4 y Kimi K2.5. El optimizador Aurora, de código abierto, mejora la eficiencia de entrenamiento en 100 veces. Un modelo de 1.1B entrenado en 100B tokens con Aurora alcanza el rendimiento de Qwen3-1.7B entrenado en 36T tokens. Esta noticia en cadena marca un avance significativo en la optimización de modelos. Aurora equilibra la uniformidad y la ortogonalidad de las actualizaciones, añadiendo solo un 6% de sobrecarga. Ya ha establecido un nuevo estándar en la optimización de modded-nanoGPT y es una de las principales noticias de altcoin para 2025.

Según el monitoreo de Beating, Tilde Research descubrió que el optimizador Muon, adoptado por modelos líderes como DeepSeek V4, Kimi K2.5 y GLM-5, tiene un defecto oculto: en las etapas iniciales del entrenamiento, hace que más de una cuarta parte de las neuronas en las capas MLP mueran permanentemente. El equipo diseñó en consecuencia un optimizador alternativo llamado Aurora y lo lanzó como código abierto. Un modelo de 1.1B solo con aproximadamente 100B tokens logró empatar con Qwen3-1.7B entrenado con 36T tokens en benchmarks de comprensión del lenguaje como HellaSwag y Winogrande. El problema radica en una característica matemática del manejo de la matriz de pesos MLP por parte de Muon. En las etapas iniciales, algunas neuronas reciben accidentalmente señales de gradiente más débiles. Optimizadores tradicionales como AdamW normalizan por parámetro, equilibrando naturalmente esta diferencia; pero el paso de ortogonalización de Muon transmite sin modificar las señales débiles. Las neuronas débiles reciben actualizaciones continuamente débiles, volviéndose cada vez más silenciosas, formando un bucle mortal de “los fuertes se vuelven más fuertes”. Para el paso 500 del entrenamiento, ya más de una cuarta parte de las neuronas habían muerto sustancialmente, desperdiciando innecesariamente la capacidad de parámetros. La versión mejorada previa, NorMuon, alivió este problema forzando a igualar la magnitud de actualización por fila, pero a costa de destruir la ortogonalidad de la matriz de actualización (la ortogonalización permite que cada actualización sea lo más eficiente posible, siendo la ventaja central de Muon), lo que redujo la precisión de optimización. Aurora establece como restricciones conjuntas “actualización uniforme” y “ortogonalidad”, satisfaciéndolas simultáneamente mediante iteraciones alternadas: garantiza a cada neurona una oportunidad justa de aprendizaje sin sacrificar la precisión de actualización. Aurora sin ajuste de hiperparámetros solo implica un 6% adicional en costo computacional respecto a Muon y puede reemplazarse directamente. En la puntuación optimizada modded-nanoGPT, Aurora estableció un nuevo récord con 3175 pasos. La ventaja de Aurora se amplifica a medida que aumenta el ancho del MLP; cuanto mayor sea el factor de escala, más notable será la mejora. El código y el modelo preentrenado de 1.1B ya están disponibles como código abierto.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.