Aurora Optimizer зменшує мертві нейрони на 25% у Muon, збільшуючи ефективність навчання в 100 разів

icon MarsBit
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Aurora — новий оптимізатор від Tilde Research — зменшує мертві нейрони на 25% у Muon, інструменті, який використовують найкращі моделі, такі як DeepSeek V4 і Kimi K2.5. Відкритий оптимізатор Aurora покращує ефективність навчання у 100 разів. Модель розміром 1,1 млрд параметрів, навчена на 100 млрд токенів за допомогою Aurora, досягає результатів, подібних до Qwen3-1.7B, навченої на 36 трлн токенів. Ця новина в мережі означає значний крок вперед у оптимізації моделей. Aurora балансує рівномірність та ортогональність оновлень, додаючи лише 6% накладних витрат. Він вже встановив новий рекорд у оптимізації modded-nanoGPT і є однією з найважливіших новин про альткоїни 2025 року.

За даними Beating Monitoring, Tilde Research виявила прихований дефект оптимізатора Muon, який використовується такими лідерами моделей, як DeepSeek V4, Kimi K2.5 та GLM-5: він призводить до постійної смерті більше чверті нейронів у шарах MLP на початку навчання. Команда розробила альтернативний оптимізатор Aurora та відкрила його код. Модель розміром 1,1 млрд параметрів, навчена лише на ~100 млрд токенів, досягла результатів, що збігаються з Qwen3-1.7B, навченим на 36 трлн токенів, на стандартних тестах з розуміння мови, таких як HellaSwag та Winogrande. Проблема полягає в математичній особливості обробки матриць ваг MLP оптимізатором Muon. На початку навчання деякі нейрони випадково отримують слабкі сигнали градієнта. Традиційні оптимізатори, такі як AdamW, нормалізують параметри поодинці, що природним чином згладжує цю різницю; але ортогональний крок Muon передає слабкі сигнали без змін. Слабкі нейрони продовжують отримувати слабкі оновлення, стають все більш мовчазними і потрапляють у «мертвий цикл» — «сильніші стають сильнішими». До 500-го кроку навчання більше чверті нейронів практично вмирають, що призводить до марної витрати параметричної ємності. Попереднє покращення NorMuon спробувало зменшити цю проблему, примусово згладжуючи амплітуду оновлень у кожному рядку, але за це довелося заплатити втратою ортогональності матриці оновлень (ортогональність забезпечує ефективність кожного кроку оновлення — ключова перевага Muon), що призвело до втрати точності оптимізації. Aurora поєднує «рівномірність оновлень» і «ортогональність» як спільні обмеження, використовуючи чергову ітерацію для одночасного задоволення обох: вона забезпечує кожному нейрону справедливу можливість навчатися, не жертвуючи точністю оновлень. Aurora без налаштувань має лише на 6% більшу обчислювальну вартість, ніж Muon, і може бути безпосередньо замінена. У тестах modded-nanoGPT Aurora встановила новий рекорд за 3175 кроків. Переваги Aurora зростають із збільшенням ширини MLP — чим вищий коефіцієнт масштабування, тим помітніше покращення. Код та попередньо навчена модель розміром 1,1 млрд параметрів уже відкрито.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.