Aurora Optimizer Mengurangi Neuron Mati sebesar 25% di Muon, Meningkatkan Efisiensi Pelatihan 100x

Menurut pemantauan Beating, Tilde Research menemukan bahwa optimizer Muon yang diadopsi oleh model unggulan seperti DeepSeek V4, Kimi K2.5, dan GLM-5 memiliki kelemahan tersembunyi: ia menyebabkan lebih dari seperempat neuron di lapisan MLP mati secara permanen pada tahap awal pelatihan. Tim ini merancang optimizer alternatif bernama Aurora dan melepaskannya sebagai open-source. Sebuah model berukuran 1,1 miliar parameter hanya dengan sekitar 100 miliar token berhasil mencapai performa setara dengan Qwen3-1.7B yang dilatih menggunakan 36 triliun token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande. Masalahnya terletak pada sifat matematis Muon saat memproses matriks bobot MLP. Pada awal pelatihan, sejumlah neuron secara kebetulan menerima sinyal gradien yang lemah. Optimizer tradisional seperti AdamW melakukan normalisasi parameter per parameter, sehingga secara alami meratakan perbedaan ini; namun langkah ortogonalisasi Muon secara utuh meneruskan sinyal lemah tersebut. Neuron lemah terus menerima pembaruan lemah, semakin menjadi diam, membentuk siklus mati "pemenang terus menang". Pada langkah pelatihan ke-500, lebih dari seperempat neuron telah mati secara substantif, mengakibatkan pemborosan kapasitas parameter. Versi perbaikan sebelumnya, NorMuon, mengurangi masalah ini dengan memaksa meratakan amplitudo pembaruan setiap baris, tetapi dengan mengorbankan ortogonalitas matriks pembaruan (ortogonalisasi memastikan setiap langkah pembaruan optimal, yang merupakan keunggulan utama Muon), sehingga mengurangi akurasi optimasi. Aurora menetapkan "pembaruan merata" dan "ortogonalitas" sebagai kendala bersama, menggunakan iterasi bergantian untuk memenuhi keduanya sekaligus: memberikan kesempatan belajar yang adil bagi setiap neuron tanpa mengorbankan akurasi pembaruan. Aurora tanpa penyetelan parameter hanya memerlukan 6% lebih banyak biaya komputasi dibanding Muon, sehingga dapat langsung menggantikannya. Dalam pengujian modded-nanoGPT, Aurora memecahkan rekor terbaik saat ini dengan 3.175 langkah. Keunggulan Aurora semakin meningkat seiring dengan peningkatan lebar MLP; semakin tinggi faktor ekspansi, semakin jelas perbaikannya. Kode dan model pra-pelatihan 1,1 miliar parameter telah dirilis sebagai open-source.