Aurora Optimizer снижает количество мертвых нейронов на 25% в Muon и повышает эффективность обучения в 100 раз

Согласно наблюдениям Beating, команда Tilde Research обнаружила скрытый дефект в оптимизаторе Muon, используемом ведущими моделями, такими как DeepSeek V4, Kimi K2.5 и GLM-5: он приводит к постоянной гибели более четверти нейронов в слоях MLP на ранних этапах обучения. На основе этого открытия команда разработала и открыла альтернативный оптимизатор Aurora. Модель размером 1,1 млрд параметров, обученная всего на ~100 млрд токенов, достигла результатов, сопоставимых с Qwen3-1.7B, обученным на 36 трлн токенов, на языковых бенчмарках HellaSwag и Winogrande. Проблема заключается в математической особенности обработки матриц весов MLP оптимизатором Muon. На начальных этапах обучения часть нейронов случайно получает слабые градиентные сигналы. Традиционные оптимизаторы, такие как AdamW, нормализуют параметры по отдельности, естественным образом уравнивая эти различия; однако ортогональный шаг Muon передает слабые сигналы без изменений. Слабые нейроны продолжают получать слабые обновления, становятся все более бездействующими и входят в порочный круг «сильные становятся сильнее». К 500-му шагу обучения более четверти нейронов фактически погибают, что приводит к бесполезному расходованию параметрической емкости. Ранее улучшенная версия NorMuon смягчала эту проблему, принудительно выравнивая амплитуду обновлений по каждой строке, но это приводило к разрушению ортогональности матрицы обновлений — ключевого преимущества Muon, обеспечивающего максимальную эффективность каждого шага обновления, и снижало точность оптимизации. Aurora решает эту дилемму, устанавливая «равномерность обновлений» и «ортогональность» как совместные ограничения и используя чередующиеся итерации для одновременного удовлетворения обоих условий: обеспечивая каждому нейрону справедливую возможность обучения без потери точности обновлений. Aurora без настройки требует всего на 6% больше вычислительных ресурсов по сравнению с Muon и может быть использована как прямая замена. В тестах на модифицированной версии nanoGPT Aurora установила новый рекорд с 3175 шагами. Преимущества Aurora усиливаются с увеличением ширины MLP — чем выше коэффициент масштабирования, тем заметнее улучшение. Код и предварительно обученная модель размером 1,1 млрд параметров уже открыты.