Beating Monitoring के अनुसार, Tilde Research ने पाया कि DeepSeek V4, Kimi K2.5, GLM-5 जैसे शीर्ष मॉडल्स द्वारा उपयोग किए जाने वाले ऑप्टिमाइज़र Muon में एक छिपा दोष है: यह प्रशिक्षण के प्रारंभिक चरणों में MLP परतों के एक चौथाई से अधिक न्यूरॉन्स को स्थायी रूप से मरने देता है। टीम ने इसके आधार पर एक वैकल्पिक ऑप्टिमाइज़र Aurora का डिज़ाइन किया और इसे ओपन सोर्स किया। एक 1.1B मॉडल ने केवल लगभग 100B टोकन के साथ HellaSwag, Winogrande जैसे भाषा समझ बेंचमार्क पर 36T टोकन से प्रशिक्षित Qwen3-1.7B के समान प्रदर्शन किया। समस्या Muon द्वारा MLP वजन मैट्रिक्स को संभालने के दौरान एक गणितीय विशेषता में है। प्रशिक्षण के प्रारंभ में, कुछ न्यूरॉन्स को अचानक कमजोर ग्रेडिएंट संकेत मिलते हैं। AdamW जैसे पारंपरिक ऑप्टिमाइज़र प्रति पैरामीटर सामान्यीकरण करते हैं, जिससे यह अंतर स्वतः समान हो जाता है; लेकिन Muon का ऑर्थोगोनलाइज़ेशन स्टेप कमजोर संकेत को मूल रूप में ही आगे भेजता है। कमजोर न्यूरॉन्स को लगातार कमजोर अपडेट मिलते हैं, जिससे वे और अधिक मौन होते जाते हैं, और "जो मजबूत है, वह और मजबूत होता है" का एक स्थायी चक्र बनता है। 500वें प्रशिक्षण कदम तक, पहले से ही एक चौथाई से अधिक न्यूरॉन्स सक्रिय रूप से मर चुके होते हैं, जिससे पैरामीटर क्षमता बर्बाद हो जाती है। पहले के सुधारित संस्करण NorMuon ने प्रति पंक्ति अपडेट की मात्रा को समान करके समस्या को कम किया, लेकिन इसकी कीमत पर अपडेट मैट्रिक्स की ऑर्थोगोनलिटी (ऑर्थोगोनलाइज़ेशन प्रत्येक कदम को सबसे कुशल बनाती है, Muon का मुख्य लाभ) क्षतिग्रस्त होती है, और ऑप्टिमाइज़ेशन की सटीकता में कमी होती है। Aurora "अपडेट समानता" और "ऑर्थोगोनलिटी" को संयुक्त प्रतिबंध के रूप में सेट करता है, और प्रत्यावर्ती पुनरावृत्ति के माध्यम से दोनों को संतुष्ट करता है: प्रत्येक न्यूरॉन को समान सीखने का मौका मिलता है, साथ ही अपडेट सटीकता में कमी नहीं होती। प्रशिक्षण-अनुकूलित Aurora, Muon की तुलना में केवल 6% अधिक कंप्यूटेशनल ओवरहेड के साथ सीधे प्रतिस्थापित किया जा सकता है। modded-nanoGPT प्रदर्शन परीक्षण में, Aurora ने 3175 कदमों के साथ वर्तमान सर्वश्रेष्ठ प्रदर्शन को तोड़ा। Aurora का लाभ MLP कीचड़ (width) में वृद्धि के साथ-साथ बढ़ता है; प्रसारण सहगुण (scaling coefficient) जितना अधिक होगा, सुधार उतना ही स्पष्ट होगा। कोड और 1.1B प्री-ट्रेन मॉडल पहले ही ओपन सोर्स हो चुके हैं।
Aurora Optimizer ने Muon में मृत न्यूरॉन्स को 25% कम कर दिया, ट्रेनिंग की दक्षता में 100x की वृद्धि की
MarsBitसाझा करें






अरूरा, टिल्ड रिसर्च का एक नया ऑप्टिमाइज़र, जिसका उपयोग डीपसीक V4 और किमी K2.5 जैसे शीर्ष मॉडल्स द्वारा किया जाता है, Muon में मृत न्यूरॉन्स को 25% तक कम कर देता है। ओपन-सोर्स अरूरा ऑप्टिमाइज़र ट्रेनिंग की दक्षता में 100x की वृद्धि करता है। 100B टोकन पर अरूरा के साथ प्रशिक्षित 1.1B मॉडल, 36T टोकन पर प्रशिक्षित Qwen3-1.7B के समान प्रदर्शन करता है। यह ऑन-चेन समाचार मॉडल ऑप्टिमाइज़ेशन में एक प्रमुख कदम है। अरूरा अपडेट यूनिफॉर्मिटी और ऑर्थोगोनैलिटी को संतुलित करता है और केवल 6% ओवरहेड जोड़ता है। यह पहले से ही मॉडेड-नैनोGPT ऑप्टिमाइज़ेशन में एक नया मानक स्थापित कर चुका है और 2025 के लिए एक शीर्ष अल्टकॉइन समाचार है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।