Aurora Optimizer снижает количество мертвых нейронов на 25% в Muon и повышает эффективность обучения в 100 раз

icon MarsBit
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Aurora — новый оптимизатор от Tilde Research — снижает количество мёртвых нейронов на 25% в Muon, инструменте, используемом ведущими моделями, такими как DeepSeek V4 и Kimi K2.5. Открытый оптимизатор Aurora повышает эффективность обучения в 100 раз. Модель размером 1,1 млрд параметров, обученная на 100 млрд токенов с помощью Aurora, достигает результатов модели Qwen3-1.7B, обученной на 36 трлн токенов. Эта новость в блокчейне означает значительный прогресс в оптимизации моделей. Aurora обеспечивает баланс между равномерностью и ортогональностью обновлений, добавляя всего 6% накладных расходов. Он уже установил новый эталон в оптимизации modded-nanoGPT и является одной из главных новостей об альткоинах 2025 года.

Согласно наблюдениям Beating, команда Tilde Research обнаружила скрытый дефект в оптимизаторе Muon, используемом ведущими моделями, такими как DeepSeek V4, Kimi K2.5 и GLM-5: он приводит к постоянной гибели более четверти нейронов в слоях MLP на ранних этапах обучения. На основе этого открытия команда разработала и открыла альтернативный оптимизатор Aurora. Модель размером 1,1 млрд параметров, обученная всего на ~100 млрд токенов, достигла результатов, сопоставимых с Qwen3-1.7B, обученным на 36 трлн токенов, на языковых бенчмарках HellaSwag и Winogrande. Проблема заключается в математической особенности обработки матриц весов MLP оптимизатором Muon. На начальных этапах обучения часть нейронов случайно получает слабые градиентные сигналы. Традиционные оптимизаторы, такие как AdamW, нормализуют параметры по отдельности, естественным образом уравнивая эти различия; однако ортогональный шаг Muon передает слабые сигналы без изменений. Слабые нейроны продолжают получать слабые обновления, становятся все более бездействующими и входят в порочный круг «сильные становятся сильнее». К 500-му шагу обучения более четверти нейронов фактически погибают, что приводит к бесполезному расходованию параметрической емкости. Ранее улучшенная версия NorMuon смягчала эту проблему, принудительно выравнивая амплитуду обновлений по каждой строке, но это приводило к разрушению ортогональности матрицы обновлений — ключевого преимущества Muon, обеспечивающего максимальную эффективность каждого шага обновления, и снижало точность оптимизации. Aurora решает эту дилемму, устанавливая «равномерность обновлений» и «ортогональность» как совместные ограничения и используя чередующиеся итерации для одновременного удовлетворения обоих условий: обеспечивая каждому нейрону справедливую возможность обучения без потери точности обновлений. Aurora без настройки требует всего на 6% больше вычислительных ресурсов по сравнению с Muon и может быть использована как прямая замена. В тестах на модифицированной версии nanoGPT Aurora установила новый рекорд с 3175 шагами. Преимущества Aurora усиливаются с увеличением ширины MLP — чем выше коэффициент масштабирования, тем заметнее улучшение. Код и предварительно обученная модель размером 1,1 млрд параметров уже открыты.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.