Aurora Optimizer зменшує мертві нейрони на 25% у Muon, збільшуючи ефективність навчання в 100 разів

За даними Beating Monitoring, Tilde Research виявила прихований дефект оптимізатора Muon, який використовується такими лідерами моделей, як DeepSeek V4, Kimi K2.5 та GLM-5: він призводить до постійної смерті більше чверті нейронів у шарах MLP на початку навчання. Команда розробила альтернативний оптимізатор Aurora та відкрила його код. Модель розміром 1,1 млрд параметрів, навчена лише на ~100 млрд токенів, досягла результатів, що збігаються з Qwen3-1.7B, навченим на 36 трлн токенів, на стандартних тестах з розуміння мови, таких як HellaSwag та Winogrande. Проблема полягає в математичній особливості обробки матриць ваг MLP оптимізатором Muon. На початку навчання деякі нейрони випадково отримують слабкі сигнали градієнта. Традиційні оптимізатори, такі як AdamW, нормалізують параметри поодинці, що природним чином згладжує цю різницю; але ортогональний крок Muon передає слабкі сигнали без змін. Слабкі нейрони продовжують отримувати слабкі оновлення, стають все більш мовчазними і потрапляють у «мертвий цикл» — «сильніші стають сильнішими». До 500-го кроку навчання більше чверті нейронів практично вмирають, що призводить до марної витрати параметричної ємності. Попереднє покращення NorMuon спробувало зменшити цю проблему, примусово згладжуючи амплітуду оновлень у кожному рядку, але за це довелося заплатити втратою ортогональності матриці оновлень (ортогональність забезпечує ефективність кожного кроку оновлення — ключова перевага Muon), що призвело до втрати точності оптимізації. Aurora поєднує «рівномірність оновлень» і «ортогональність» як спільні обмеження, використовуючи чергову ітерацію для одночасного задоволення обох: вона забезпечує кожному нейрону справедливу можливість навчатися, не жертвуючи точністю оновлень. Aurora без налаштувань має лише на 6% більшу обчислювальну вартість, ніж Muon, і може бути безпосередньо замінена. У тестах modded-nanoGPT Aurora встановила новий рекорд за 3175 кроків. Переваги Aurora зростають із збільшенням ширини MLP — чим вищий коефіцієнт масштабування, тим помітніше покращення. Код та попередньо навчена модель розміром 1,1 млрд параметрів уже відкрито.