Ang Aurora Optimizer ay bumabawas ng 25% sa mga patayong neuron sa Muon, at dinadagdagan ang efisiyensiya ng pagtuturo ng 100x

Ayon sa pagmamasid ni Beating, natuklasan ng Tilde Research na may nakatagong kakulangan ang optimizer na Muon, na ginagamit ng mga lider na modelo tulad ng DeepSeek V4, Kimi K2.5, at GLM-5: ito ay nagdudulot ng permanenteng pagkamatay ng higit sa isang-kwarter ng mga neuron sa MLP layers sa maagang yugto ng pagtuturo. Ginawa ng grupo ang alternatibong optimizer na Aurora at isinilid ito bilang open-source. Isang 1.1B na modelo, na tinuturuan lamang ng halos 100B token, ay nakapagpahalaga sa parehong antas ng Qwen3-1.7B na tinuturuan sa 36T token sa mga benchmark ng pag-unawa sa wika tulad ng HellaSwag at Winogrande. Ang problema ay nasa isang matematikal na katangian ng Muon sa pagtrato sa weight matrix ng MLP. Sa simula ng pagtuturo, ang ilang neuron ay nakuha ang mas mahinang gradient signal. Ang mga tradisyonal na optimizer tulad ng AdamW ay nag-norma sa bawat parameter, kaya natural na pinapantay ang mga pagkakaiba; ngunit ang orthogonalization step ng Muon ay ipinapadala nang walang pagbabago ang mahinang signal. Ang mga mahinang neuron ay patuloy na natatanggap ng mahinang update, at naging mas tahimik sila, bumubuo ng isang "winner-takes-all" na siklo. Sa ika-500 na hakbang ng pagtuturo, higit sa isang-kwarter ng mga neuron ay naging permanenteng patay, na nagwawala ng kapasidad ng parameter. Ang dating pagpapabuti, ang NorMuon, ay nagpapantay sa bawat row update upang mapabuti ito, ngunit sa gastos ng pagkawala ng orthogonalidad ng update matrix (ang orthogonalization ay nagpapahusay sa bawat hakbang ng update—ito ang pangunahing kahusayan ng Muon), na nagdulot ng pagbaba sa precision ng optimization. Ang Aurora ay nagtatakda ng "uniform update" at "orthogonality" bilang magkakasamang constraint, at gumagamit ng alternating iteration upang matugunan ang pareho: pinapahintulutan nito ang bawat neuron na makakuha ng pantay na pagkakataon para matuto, habang hindi binabawasan ang precision ng update. Ang Aurora na walang tuning ay may 6% lamang na dagdag sa computational cost kumpara sa Muon, at maaaring direktang palitan. Sa modded-nanoGPT optimization benchmark, ang Aurora ay nag-set ng bagong record sa 3175 steps. Ang kahusayan ng Aurora ay lalong lumalaki kasabay ng pagdami ng MLP width—mas mataas ang scaling factor, mas malaki ang pagpapabuti. Ang code at ang 1.1B pre-trained model ay nasa open-source na.