Aurora Optimizer, Muon'da ölü nöronları %25 azaltıyor ve eğitim verimliliğini 100 kat artırıyor

Beating İzleme'ye göre Tilde Research, DeepSeek V4, Kimi K2.5, GLM-5 gibi öncü modeller tarafından kullanılan Muon optimizasyon algoritmasında gizli bir hata tespit etti: Bu algoritma, eğitimin erken aşamasında MLP katmanlarının dörtte birinden fazla nöronunu kalıcı olarak ölü hale getiriyor. Takım, bu sorunu çözmek için Aurora adlı bir alternatif optimizatör tasarladı ve açık kaynak yaptı. 1.1B parametrelik bir model, sadece yaklaşık 100B token kullanarak HellaSwag ve Winogrande gibi dil anlama benchmark'larında, 36T token ile eğitilen Qwen3-1.7B modeliyle eşit performans gösterdi. Sorun, Muon'un MLP ağırlık matrislerini işlerken kullandığı bir matematiksel özelliğe dayanıyor. Eğitimin başlangıcında, bazı nöronlar rastgele daha zayıf gradyan sinyalleri alıyor. AdamW gibi geleneksel optimizatörler, her parametreyi ayrı ayrı normalleştirerek bu farkı doğal olarak düzeltir; ancak Muon'un ortogonalleştirme adımı, zayıf sinyalleri olduğu gibi iletmeye devam eder. Zayıf nöronlar sürekli zayıf güncellemeler alır, giderek sessizleşir ve "güçlüler daha da güçlenir" şeklinde kalıcı bir döngü oluşur. Eğitimin 500. adımında, dörtte birinden fazla nöron pratik olarak ölü hale gelmiş ve parametre kapasitesi boşa harcanmıştır. Daha önce geliştirilen NorMuon, her satırdaki güncelleme miktarını zorla eşitleyerek bu sorunu hafifletmişti; ancak bu, güncelleme matrisinin ortogonalliğini bozuyordu (ortogonalleştirme, her adımın güncellemesini mümkün olduğunca verimli hale getirir ve Muon'un temel avantajıdır), bu da optimizasyon doğruluğunu kaybetmeye neden oluyordu. Aurora, "eşit güncelleme" ve "ortogonallik" kavramlarını birlikte kısıt olarak tanımlayarak, alternatif iterasyonlarla her ikisini aynı anda sağlıyor: Her nörona adil bir öğrenme şansı veriyor ama güncelleme doğruluğunu kaybetmiyor. Ayarlanmamış Aurora, Muon'a göre sadece %6 daha fazla hesaplama maliyeti gerektiriyor ve doğrudan yerine geçebilir. modded-nanoGPT optimizasyon testlerinde, Aurora 3175 adımda mevcut en iyi rekoru kırdı. Aurora'nın avantajı, MLP genişliği arttıkça daha da belirginleşir; ölçeklendirme katsayısı ne kadar yüksekse, iyileşme o kadar belirgindir. Kod ve 1.1B ön-eğitilmiş model zaten açık kaynak olarak yayınlanmıştır.