Beating İzleme'ye göre Tilde Research, DeepSeek V4, Kimi K2.5, GLM-5 gibi öncü modeller tarafından kullanılan Muon optimizasyon algoritmasında gizli bir hata tespit etti: Bu algoritma, eğitimin erken aşamasında MLP katmanlarının dörtte birinden fazla nöronunu kalıcı olarak ölü hale getiriyor. Takım, bu sorunu çözmek için Aurora adlı bir alternatif optimizatör tasarladı ve açık kaynak yaptı. 1.1B parametrelik bir model, sadece yaklaşık 100B token kullanarak HellaSwag ve Winogrande gibi dil anlama benchmark'larında, 36T token ile eğitilen Qwen3-1.7B modeliyle eşit performans gösterdi. Sorun, Muon'un MLP ağırlık matrislerini işlerken kullandığı bir matematiksel özelliğe dayanıyor. Eğitimin başlangıcında, bazı nöronlar rastgele daha zayıf gradyan sinyalleri alıyor. AdamW gibi geleneksel optimizatörler, her parametreyi ayrı ayrı normalleştirerek bu farkı doğal olarak düzeltir; ancak Muon'un ortogonalleştirme adımı, zayıf sinyalleri olduğu gibi iletmeye devam eder. Zayıf nöronlar sürekli zayıf güncellemeler alır, giderek sessizleşir ve "güçlüler daha da güçlenir" şeklinde kalıcı bir döngü oluşur. Eğitimin 500. adımında, dörtte birinden fazla nöron pratik olarak ölü hale gelmiş ve parametre kapasitesi boşa harcanmıştır. Daha önce geliştirilen NorMuon, her satırdaki güncelleme miktarını zorla eşitleyerek bu sorunu hafifletmişti; ancak bu, güncelleme matrisinin ortogonalliğini bozuyordu (ortogonalleştirme, her adımın güncellemesini mümkün olduğunca verimli hale getirir ve Muon'un temel avantajıdır), bu da optimizasyon doğruluğunu kaybetmeye neden oluyordu. Aurora, "eşit güncelleme" ve "ortogonallik" kavramlarını birlikte kısıt olarak tanımlayarak, alternatif iterasyonlarla her ikisini aynı anda sağlıyor: Her nörona adil bir öğrenme şansı veriyor ama güncelleme doğruluğunu kaybetmiyor. Ayarlanmamış Aurora, Muon'a göre sadece %6 daha fazla hesaplama maliyeti gerektiriyor ve doğrudan yerine geçebilir. modded-nanoGPT optimizasyon testlerinde, Aurora 3175 adımda mevcut en iyi rekoru kırdı. Aurora'nın avantajı, MLP genişliği arttıkça daha da belirginleşir; ölçeklendirme katsayısı ne kadar yüksekse, iyileşme o kadar belirgindir. Kod ve 1.1B ön-eğitilmiş model zaten açık kaynak olarak yayınlanmıştır.
Aurora Optimizer, Muon'da ölü nöronları %25 azaltıyor ve eğitim verimliliğini 100 kat artırıyor
MarsBitPaylaş






Aurora, Tilde Research'in yeni optimizatörü, DeepSeek V4 ve Kimi K2.5 gibi üst düzey modeller tarafından kullanılan Muon adlı bir araçta ölü nöronları %25 oranında azaltıyor. Açık kaynaklı Aurora optimizatörü, eğitim verimliliğini 100 kat artırıyor. 100 milyar token üzerinde Aurora ile eğitilen 1,1 milyar parametreli bir model, 36 trilyon token üzerinde eğitilen Qwen3-1,7B modeliyle eşdeğer performans gösteriyor. Bu zincir içi haber, model optimizasyonunda büyük bir ilerleme anlamına geliyor. Aurora, güncelleme birliğini ve ortogonaliteyi dengeliyor ve sadece %6 fazladan yük ekliyor. Zaten modifiye edilmiş nanoGPT optimizasyonunda yeni bir standart belirledi ve 2025'in en önemli altcoin haberlerinden biri.
Kaynak:Orijinalini göster
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir.
Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.