Ayon sa pagmamasid ni Beating, natuklasan ng Tilde Research na may nakatagong kakulangan ang optimizer na Muon, na ginagamit ng mga lider na modelo tulad ng DeepSeek V4, Kimi K2.5, at GLM-5: ito ay nagdudulot ng permanenteng pagkamatay ng higit sa isang-kwarter ng mga neuron sa MLP layers sa maagang yugto ng pagtuturo. Ginawa ng grupo ang alternatibong optimizer na Aurora at isinilid ito bilang open-source. Isang 1.1B na modelo, na tinuturuan lamang ng halos 100B token, ay nakapagpahalaga sa parehong antas ng Qwen3-1.7B na tinuturuan sa 36T token sa mga benchmark ng pag-unawa sa wika tulad ng HellaSwag at Winogrande. Ang problema ay nasa isang matematikal na katangian ng Muon sa pagtrato sa weight matrix ng MLP. Sa simula ng pagtuturo, ang ilang neuron ay nakuha ang mas mahinang gradient signal. Ang mga tradisyonal na optimizer tulad ng AdamW ay nag-norma sa bawat parameter, kaya natural na pinapantay ang mga pagkakaiba; ngunit ang orthogonalization step ng Muon ay ipinapadala nang walang pagbabago ang mahinang signal. Ang mga mahinang neuron ay patuloy na natatanggap ng mahinang update, at naging mas tahimik sila, bumubuo ng isang "winner-takes-all" na siklo. Sa ika-500 na hakbang ng pagtuturo, higit sa isang-kwarter ng mga neuron ay naging permanenteng patay, na nagwawala ng kapasidad ng parameter. Ang dating pagpapabuti, ang NorMuon, ay nagpapantay sa bawat row update upang mapabuti ito, ngunit sa gastos ng pagkawala ng orthogonalidad ng update matrix (ang orthogonalization ay nagpapahusay sa bawat hakbang ng update—ito ang pangunahing kahusayan ng Muon), na nagdulot ng pagbaba sa precision ng optimization. Ang Aurora ay nagtatakda ng "uniform update" at "orthogonality" bilang magkakasamang constraint, at gumagamit ng alternating iteration upang matugunan ang pareho: pinapahintulutan nito ang bawat neuron na makakuha ng pantay na pagkakataon para matuto, habang hindi binabawasan ang precision ng update. Ang Aurora na walang tuning ay may 6% lamang na dagdag sa computational cost kumpara sa Muon, at maaaring direktang palitan. Sa modded-nanoGPT optimization benchmark, ang Aurora ay nag-set ng bagong record sa 3175 steps. Ang kahusayan ng Aurora ay lalong lumalaki kasabay ng pagdami ng MLP width—mas mataas ang scaling factor, mas malaki ang pagpapabuti. Ang code at ang 1.1B pre-trained model ay nasa open-source na.
Ang Aurora Optimizer ay bumabawas ng 25% sa mga patayong neuron sa Muon, at dinadagdagan ang efisiyensiya ng pagtuturo ng 100x
MarsBitI-share






Ang Aurora, isang bagong optimizer mula sa Tilde Research, binabawasan ang mga patay na neuron ng 25% sa Muon, isang kasangkapan na ginagamit ng mga pinakamataas na modelo tulad ng DeepSeek V4 at Kimi K2.5. Ang open-source na Aurora optimizer ay nagpapabuti ng pagtatrabaho ng 100x. Isang 1.1B na modelo na tinuruan sa 100B na tokens gamit ang Aurora ay katumbas ng Qwen3-1.7B na tinuruan sa 36T na tokens. Ang balitang ito sa blockchain ay nagtatakda ng malaking hakbang pataas sa pagpapabuti ng modelo. Pinapahintulutan ng Aurora ang pagkakapantay-pantay at orthogonality ng update, na nagdaragdag ng tanging 6% na overhead. Nakakamit na nito ang bagong benchmark sa modded-nanoGPT optimization at isang pangunahing altcoin news story para sa 2025.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.