Aurora Optimizer Mengurangkan Neuron Mati sebanyak 25% dalam Muon, Meningkatkan Kecekapan Latihan 100x

icon MarsBit
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Aurora, pengoptimum baharu daripada Tilde Research, mengurangkan neuron mati sebanyak 25% dalam Muon, alat yang digunakan oleh model terkemuka seperti DeepSeek V4 dan Kimi K2.5. Pengoptimum sumber terbuka Aurora meningkatkan kecekapan latihan sebanyak 100x. Model 1.1B yang dilatih pada 100B token dengan Aurora sepadan dengan Qwen3-1.7B yang dilatih pada 36T token. Berita berbasis rantai ini menandakan langkah besar ke hadapan dalam pengoptimuman model. Aurora menyeimbangkan keseragaman kemas kini dan ortogonaliti, menambah hanya 6% beban. Ia telah menetapkan tolok ukur baharu dalam pengoptimuman modded-nanoGPT dan merupakan cerita berita altcoin teratas untuk 2025.

Berdasarkan pemantauan Beating, Tilde Research menemukan bahawa optimizer Muon yang digunakan oleh model terkemuka seperti DeepSeek V4, Kimi K2.5, dan GLM-5 mempunyai kecacatan tersembunyi: ia menyebabkan lebih dari seperempat neuron dalam lapisan MLP mati secara permanen pada awal latihan. Tim ini kemudian mereka optimizer pengganti bernama Aurora dan melepaskannya sebagai sumber terbuka. Sebuah model berukuran 1.1B hanya dengan sekitar 100B token mampu mencapai prestasi setara dengan Qwen3-1.7B yang dilatih menggunakan 36T token pada benchmark pemahaman bahasa seperti HellaSwag dan Winogrande. Masalahnya terletak pada satu sifat matematik dalam cara Muon mengendalikan matriks berat MLP. Pada awal latihan, sebahagian neuron secara kebetulan menerima isyarat gradien yang lemah. Optimizer tradisional seperti AdamW akan menormalkan setiap parameter secara berasingan, secara semula jadi meratakan perbezaan ini; tetapi langkah ortogonalisasi Muon akan meneruskan isyarat lemah tersebut tanpa perubahan. Neuron yang lemah terus menerima kemas kini yang lemah, menjadi semakin senyap, membentuk lingkaran setia "yang kuat semakin kuat". Pada langkah latihan ke-500, lebih dari seperempat neuron telah mati secara substantif, membuang kapasiti parameter secara sia-sia. Versi peningkatan sebelumnya, NorMuon, mengurangkan masalah ini dengan memaksa meratakan magnitud kemas kini setiap baris, tetapi dengan mengorbankan ortogonaliti matriks kemas kini (ortogonalisasi memastikan setiap langkah kemas kini seefisien mungkin, yang merupakan kelebihan utama Muon), sehingga mengorbankan ketepatan pengoptimuman. Aurora menetapkan "kemas kini seragam" dan "ortogonaliti" sebagai sekatan bersama, menggunakan iterasi bergilir untuk memenuhi kedua-duanya: ia memberikan peluang pembelajaran yang adil kepada setiap neuron tanpa mengorbankan ketepatan kemas kini. Aurora tanpa penyesuaian parameter hanya memerlukan 6% lebih banyak beban pengiraan berbanding Muon, dan boleh digantikan secara langsung. Dalam ujian pengoptimuman modded-nanoGPT, Aurora memecahkan rekod terbaik semasa dengan 3175 langkah. Kelebihan Aurora akan semakin meningkat seiring dengan peningkatan lebar MLP; semakin tinggi faktor penskalaan, semakin jelas peningkatan yang dicapai. Kod dan model pra-latihan 1.1B telah dilepaskan sebagai sumber terbuka.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.