Aurora Optimizer ने Muon में मृत न्यूरॉन्स को 25% कम कर दिया, ट्रेनिंग की दक्षता में 100x की वृद्धि की

Beating Monitoring के अनुसार, Tilde Research ने पाया कि DeepSeek V4, Kimi K2.5, GLM-5 जैसे शीर्ष मॉडल्स द्वारा उपयोग किए जाने वाले ऑप्टिमाइज़र Muon में एक छिपा दोष है: यह प्रशिक्षण के प्रारंभिक चरणों में MLP परतों के एक चौथाई से अधिक न्यूरॉन्स को स्थायी रूप से मरने देता है। टीम ने इसके आधार पर एक वैकल्पिक ऑप्टिमाइज़र Aurora का डिज़ाइन किया और इसे ओपन सोर्स किया। एक 1.1B मॉडल ने केवल लगभग 100B टोकन के साथ HellaSwag, Winogrande जैसे भाषा समझ बेंचमार्क पर 36T टोकन से प्रशिक्षित Qwen3-1.7B के समान प्रदर्शन किया। समस्या Muon द्वारा MLP वजन मैट्रिक्स को संभालने के दौरान एक गणितीय विशेषता में है। प्रशिक्षण के प्रारंभ में, कुछ न्यूरॉन्स को अचानक कमजोर ग्रेडिएंट संकेत मिलते हैं। AdamW जैसे पारंपरिक ऑप्टिमाइज़र प्रति पैरामीटर सामान्यीकरण करते हैं, जिससे यह अंतर स्वतः समान हो जाता है; लेकिन Muon का ऑर्थोगोनलाइज़ेशन स्टेप कमजोर संकेत को मूल रूप में ही आगे भेजता है। कमजोर न्यूरॉन्स को लगातार कमजोर अपडेट मिलते हैं, जिससे वे और अधिक मौन होते जाते हैं, और "जो मजबूत है, वह और मजबूत होता है" का एक स्थायी चक्र बनता है। 500वें प्रशिक्षण कदम तक, पहले से ही एक चौथाई से अधिक न्यूरॉन्स सक्रिय रूप से मर चुके होते हैं, जिससे पैरामीटर क्षमता बर्बाद हो जाती है। पहले के सुधारित संस्करण NorMuon ने प्रति पंक्ति अपडेट की मात्रा को समान करके समस्या को कम किया, लेकिन इसकी कीमत पर अपडेट मैट्रिक्स की ऑर्थोगोनलिटी (ऑर्थोगोनलाइज़ेशन प्रत्येक कदम को सबसे कुशल बनाती है, Muon का मुख्य लाभ) क्षतिग्रस्त होती है, और ऑप्टिमाइज़ेशन की सटीकता में कमी होती है। Aurora "अपडेट समानता" और "ऑर्थोगोनलिटी" को संयुक्त प्रतिबंध के रूप में सेट करता है, और प्रत्यावर्ती पुनरावृत्ति के माध्यम से दोनों को संतुष्ट करता है: प्रत्येक न्यूरॉन को समान सीखने का मौका मिलता है, साथ ही अपडेट सटीकता में कमी नहीं होती। प्रशिक्षण-अनुकूलित Aurora, Muon की तुलना में केवल 6% अधिक कंप्यूटेशनल ओवरहेड के साथ सीधे प्रतिस्थापित किया जा सकता है। modded-nanoGPT प्रदर्शन परीक्षण में, Aurora ने 3175 कदमों के साथ वर्तमान सर्वश्रेष्ठ प्रदर्शन को तोड़ा। Aurora का लाभ MLP कीचड़ (width) में वृद्धि के साथ-साथ बढ़ता है; प्रसारण सहगुण (scaling coefficient) जितना अधिक होगा, सुधार उतना ही स्पष्ट होगा। कोड और 1.1B प्री-ट्रेन मॉडल पहले ही ओपन सोर्स हो चुके हैं।