बड़े मॉडल के पोस्ट-ट्रेनिंग में नए खोज: स्व-निर्मित डेटा के साथ इन-ट्रैक ट्रेनिंग मॉडल्स को सुधारने में मदद करती है

Beating मॉनिटरिंग के अनुसार, बड़े मॉडल के पोस्ट-ट्रेनिंग में "समान पथ नमूनाकरण" (जिसमें मॉडल अपने वास्तविक रूप से उत्पन्न डेटा के आधार पर प्रशिक्षण प्राप्त करता है) मॉडल के अवक्षय को रोकने और समस्या-समाधान क्षमता में सुधार करने की कुंजी है। ऑनलाइन रीइनफोर्समेंट लर्निंग (RL) और समान पथ डिस्टिलेशन (OPD) का पारंपरिक निरीक्षित सूक्ष्म-समायोजन (SFT) से बेहतर होने का मूल कारण यह है कि वे मॉडल को बाहरी मानक उत्तरों को याद करने के बजाय, अपने द्वारा लिखे गए चरणों के आधार पर अनुकूलित करते हैं। SFT द्वारा मानक उत्तरों को जबरदस्ती सिखाने से प्रत्येक शब्द पर समान बल लगाया जाता है, जिससे मॉडल की मूल ज्ञान संरचना को आसानी से क्षति पहुंचती है और भूलने की समस्या उत्पन्न होती है। इसके विपरीत, RL और OPD मॉडल को अपने स्वयं लिखे गए मसौदों में से सर्वोत्तम चरणों को खोजने और मजबूत करने की अनुमति देते हैं। इससे "शुरुआत में एक शब्द गलत होने पर पूरी प्रक्रिया में विचलन" की संचयी त्रुटि से बचा जा सकता है, और अपडेट केवल मॉडल के पहले से ज्ञात ज्ञान क्षेत्रों में ही होता है, जिससे मूल क्षमताओं को अधिकतम सीमा तक संरक्षित रखा जा सकता है। "न्यूनतम कोड संपादन" प्रयोग में, SFT या RL मेंटर के साथ समान पथ डिस्टिलेशन का उपयोग करने पर, छात्र मॉडल की पहली प्रयास में सही कोड लिखने की सफलता (Pass@1) क्रमशः 80.0% और 78.7% है, जो मेंटर मॉडल से भी अधिक है। हालाँकि SFT मेंटर, अत्यधिक सूक्ष्म-समायोजन के कारण "बहुत मूर्ख" हो गया (LiveCodeBench कोड क्षमता परीक्षण में 0.320 से 0.286 तक गिरकर), फिर भी इसके साथ प्रशिक्षित छात्र मॉडल 0.297 का उच्च स्कोर प्राप्त करता है, जो मेंटर की कमजोरियों से लगभग प्रभावित नहीं हुआ, जिससे सिद्ध होता है कि समान पथ प्रशिक्षण मेंटर की खराब आदतों को प्रभावी ढंग से फ़िल्टर किया जा सकता है। वर्तमान में, DeepSeek-V4 और GLM-5 ने महत्वपूर्ण मॉडल क्षमताओं को मिलाने के लिए समान पथ डिस्टिलेशन को समाहित किया है। महत्वपूर्ण प्रशिक्षण में, कोडिंग और गणित जैसे स्पष्ट सही/गलत पहलुओं में RL सबसे उपयुक्त है, jabki सृजनात्मकता और ज्ञान-आधारित विषयवस्तुओं में समान पथ डिस्टिलेशन सबसे अधिक सुविधाजनक है। भविष्य का परम सूक्ष्म-समायोजन एल्गोरिथम, समान पथ प्रशिक्षण के संदर्भ में, ही-डेंसिटी (उच्च सूचना-घनत्व) के साथ-साथ RL की वस्तुनिष्ठता (अपक्षपातपूर्ण-अपडेट) को संयोजित करने कीएक नई प्रणाली की खोज करेगा।