Menurut pemantauan Beating, Tilde Research menemukan bahwa optimizer Muon yang diadopsi oleh model unggulan seperti DeepSeek V4, Kimi K2.5, dan GLM-5 memiliki kelemahan tersembunyi: ia menyebabkan lebih dari seperempat neuron di lapisan MLP mati secara permanen pada tahap awal pelatihan. Tim ini merancang optimizer alternatif bernama Aurora dan melepaskannya sebagai open-source. Sebuah model berukuran 1,1 miliar parameter hanya dengan sekitar 100 miliar token berhasil mencapai performa setara dengan Qwen3-1.7B yang dilatih menggunakan 36 triliun token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande. Masalahnya terletak pada sifat matematis Muon saat memproses matriks bobot MLP. Pada awal pelatihan, sejumlah neuron secara kebetulan menerima sinyal gradien yang lemah. Optimizer tradisional seperti AdamW melakukan normalisasi parameter per parameter, sehingga secara alami meratakan perbedaan ini; namun langkah ortogonalisasi Muon secara utuh meneruskan sinyal lemah tersebut. Neuron lemah terus menerima pembaruan lemah, semakin menjadi diam, membentuk siklus mati "pemenang terus menang". Pada langkah pelatihan ke-500, lebih dari seperempat neuron telah mati secara substantif, mengakibatkan pemborosan kapasitas parameter. Versi perbaikan sebelumnya, NorMuon, mengurangi masalah ini dengan memaksa meratakan amplitudo pembaruan setiap baris, tetapi dengan mengorbankan ortogonalitas matriks pembaruan (ortogonalisasi memastikan setiap langkah pembaruan optimal, yang merupakan keunggulan utama Muon), sehingga mengurangi akurasi optimasi. Aurora menetapkan "pembaruan merata" dan "ortogonalitas" sebagai kendala bersama, menggunakan iterasi bergantian untuk memenuhi keduanya sekaligus: memberikan kesempatan belajar yang adil bagi setiap neuron tanpa mengorbankan akurasi pembaruan. Aurora tanpa penyetelan parameter hanya memerlukan 6% lebih banyak biaya komputasi dibanding Muon, sehingga dapat langsung menggantikannya. Dalam pengujian modded-nanoGPT, Aurora memecahkan rekor terbaik saat ini dengan 3.175 langkah. Keunggulan Aurora semakin meningkat seiring dengan peningkatan lebar MLP; semakin tinggi faktor ekspansi, semakin jelas perbaikannya. Kode dan model pra-pelatihan 1,1 miliar parameter telah dirilis sebagai open-source.
Aurora Optimizer Mengurangi Neuron Mati sebesar 25% di Muon, Meningkatkan Efisiensi Pelatihan 100x
MarsBitBagikan






Aurora, optimizer baru dari Tilde Research, mengurangi neuron mati sebesar 25% di Muon, alat yang digunakan oleh model-model terkemuka seperti DeepSeek V4 dan Kimi K2.5. Optimizer open-source Aurora meningkatkan efisiensi pelatihan hingga 100x. Model 1,1 miliar yang dilatih pada 100 miliar token dengan Aurora setara dengan Qwen3-1,7B yang dilatih pada 36 triliun token. Berita on-chain ini menandai langkah besar dalam optimasi model. Aurora menyeimbangkan keseragaman dan ortogonalitas pembaruan, dengan menambahkan overhead hanya 6%. Sudah menetapkan tolok ukur baru dalam optimasi modded-nanoGPT dan menjadi salah satu berita altcoin teratas tahun 2025.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.