Aurora Optimizer Mengurangkan Neuron Mati sebanyak 25% dalam Muon, Meningkatkan Kecekapan Latihan 100x

Berdasarkan pemantauan Beating, Tilde Research menemukan bahawa optimizer Muon yang digunakan oleh model terkemuka seperti DeepSeek V4, Kimi K2.5, dan GLM-5 mempunyai kecacatan tersembunyi: ia menyebabkan lebih dari seperempat neuron dalam lapisan MLP mati secara permanen pada awal latihan. Tim ini kemudian mereka optimizer pengganti bernama Aurora dan melepaskannya sebagai sumber terbuka. Sebuah model berukuran 1.1B hanya dengan sekitar 100B token mampu mencapai prestasi setara dengan Qwen3-1.7B yang dilatih menggunakan 36T token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande. Masalahnya terletak pada satu sifat matematik dalam cara Muon mengendalikan matriks berat MLP. Pada awal latihan, sebahagian neuron secara kebetulan menerima isyarat gradien yang lemah. Optimizer tradisional seperti AdamW akan menormalkan setiap parameter secara berasingan, secara semula jadi meratakan perbezaan ini; tetapi langkah ortogonalisasi Muon akan meneruskan isyarat lemah tersebut tanpa perubahan. Neuron yang lemah terus menerima kemas kini yang lemah, menjadi semakin senyap, membentuk lingkaran setia "yang kuat semakin kuat". Pada langkah latihan ke-500, lebih dari seperempat neuron telah mati secara substantif, membuang kapasiti parameter secara sia-sia. Versi peningkatan sebelumnya, NorMuon, mengurangkan masalah ini dengan memaksa meratakan magnitud kemas kini setiap baris, tetapi dengan mengorbankan ortogonaliti matriks kemas kini (ortogonalisasi memastikan setiap langkah kemas kini seefisien mungkin, yang merupakan kelebihan utama Muon), sehingga mengorbankan ketepatan pengoptimuman. Aurora menetapkan "kemas kini seragam" dan "ortogonaliti" sebagai sekatan bersama, menggunakan iterasi bergilir untuk memenuhi kedua-duanya: ia memberikan peluang pembelajaran yang adil kepada setiap neuron tanpa mengorbankan ketepatan kemas kini. Aurora tanpa penyesuaian parameter hanya memerlukan 6% lebih banyak beban pengiraan berbanding Muon, dan boleh digantikan secara langsung. Dalam ujian pengoptimuman modded-nanoGPT, Aurora memecahkan rekod terbaik semasa dengan 3175 langkah. Kelebihan Aurora akan semakin meningkat seiring dengan peningkatan lebar MLP; semakin tinggi faktor penskalaan, semakin jelas peningkatan yang dicapai. Kod dan model pra-latihan 1.1B telah dilepaskan sebagai sumber terbuka.