Beating मॉनिटरिंग के अनुसार, बड़े मॉडल के पोस्ट-ट्रेनिंग में "समान पथ नमूनाकरण" (जिसमें मॉडल अपने वास्तविक रूप से उत्पन्न डेटा के आधार पर प्रशिक्षण प्राप्त करता है) मॉडल के अवक्षय को रोकने और समस्या-समाधान क्षमता में सुधार करने की कुंजी है। ऑनलाइन रीइनफोर्समेंट लर्निंग (RL) और समान पथ डिस्टिलेशन (OPD) का पारंपरिक निरीक्षित सूक्ष्म-समायोजन (SFT) से बेहतर होने का मूल कारण यह है कि वे मॉडल को बाहरी मानक उत्तरों को याद करने के बजाय, अपने द्वारा लिखे गए चरणों के आधार पर अनुकूलित करते हैं। SFT द्वारा मानक उत्तरों को जबरदस्ती सिखाने से प्रत्येक शब्द पर समान बल लगाया जाता है, जिससे मॉडल की मूल ज्ञान संरचना को आसानी से क्षति पहुंचती है और भूलने की समस्या उत्पन्न होती है। इसके विपरीत, RL और OPD मॉडल को अपने स्वयं लिखे गए मसौदों में से सर्वोत्तम चरणों को खोजने और मजबूत करने की अनुमति देते हैं। इससे "शुरुआत में एक शब्द गलत होने पर पूरी प्रक्रिया में विचलन" की संचयी त्रुटि से बचा जा सकता है, और अपडेट केवल मॉडल के पहले से ज्ञात ज्ञान क्षेत्रों में ही होता है, जिससे मूल क्षमताओं को अधिकतम सीमा तक संरक्षित रखा जा सकता है। "न्यूनतम कोड संपादन" प्रयोग में, SFT या RL मेंटर के साथ समान पथ डिस्टिलेशन का उपयोग करने पर, छात्र मॉडल की पहली प्रयास में सही कोड लिखने की सफलता (Pass@1) क्रमशः 80.0% और 78.7% है, जो मेंटर मॉडल से भी अधिक है। हालाँकि SFT मेंटर, अत्यधिक सूक्ष्म-समायोजन के कारण "बहुत मूर्ख" हो गया (LiveCodeBench कोड क्षमता परीक्षण में 0.320 से 0.286 तक गिरकर), फिर भी इसके साथ प्रशिक्षित छात्र मॉडल 0.297 का उच्च स्कोर प्राप्त करता है, जो मेंटर की कमजोरियों से लगभग प्रभावित नहीं हुआ, जिससे सिद्ध होता है कि समान पथ प्रशिक्षण मेंटर की खराब आदतों को प्रभावी ढंग से फ़िल्टर किया जा सकता है। वर्तमान में, DeepSeek-V4 और GLM-5 ने महत्वपूर्ण मॉडल क्षमताओं को मिलाने के लिए समान पथ डिस्टिलेशन को समाहित किया है। महत्वपूर्ण प्रशिक्षण में, कोडिंग और गणित जैसे स्पष्ट सही/गलत पहलुओं में RL सबसे उपयुक्त है, jabki सृजनात्मकता और ज्ञान-आधारित विषयवस्तुओं में समान पथ डिस्टिलेशन सबसे अधिक सुविधाजनक है। भविष्य का परम सूक्ष्म-समायोजन एल्गोरिथम, समान पथ प्रशिक्षण के संदर्भ में, ही-डेंसिटी (उच्च सूचना-घनत्व) के साथ-साथ RL की वस्तुनिष्ठता (अपक्षपातपूर्ण-अपडेट) को संयोजित करने कीएक नई प्रणाली की खोज करेगा।
बड़े मॉडल के पोस्ट-ट्रेनिंग में नए खोज: स्व-निर्मित डेटा के साथ इन-ट्रैक ट्रेनिंग मॉडल्स को सुधारने में मदद करती है
MarsBitसाझा करें
नवीन शोध ने स्वयं-उत्पादित डेटा के साथ ट्रैक-के-अंदर प्रशिक्षण को मॉडल प्रदर्शन को बेहतर बनाने और अवक्षय से बचने की एक महत्वपूर्ण विधि के रूप में उजागर किया है। पारंपरिक SFT, ऑनलाइन RL और ट्रैक-के-अंदर डिस्टिलेशन (OPD) के विपरीत, यह विधि मॉडल को वास्तविक समय में अपने कदमों को सुधारने की अनुमति देती है। हाल के परीक्षणों से पता चला है कि इस तरह से प्रशिक्षित छात्र मॉडल, भले ही मुद्रास्फीति डेटा और बाजार के परिवर्तन बाह्य मानकों को प्रभावित कर रहे हों, मेंटर से बेहतर प्रदर्शन कर रहे हैं। DeepSeek-V4 और GLM-5 जैसे प्लेटफॉर्म पहले से ही इस विधि का उपयोग विशेषज्ञ ज्ञान को जोड़ने के लिए कर रहे हैं। नए टोकन सूचीकरण को ट्रैक-के-अंदर डिस्टिलेशन का उपयोग करने वाले अधिक सटीक और अनुकूलनशील मॉडल से लाभ हो सकता है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।