DeepSeek V4 ट्रेनिंग विधि OPD में स्थानांतरित हो गई है, विशेषज्ञ मॉडल्स को एकीकृत किया गया है

ME न्यूज़ के अनुसार, 24 अप्रैल (UTC+8), डिनचा बीटिंग के निगरानी के अनुसार, DeepSeek V4 की बाद की प्रशिक्षण विधि में महत्वपूर्ण परिवर्तन हुए हैं: V3.2 का मिक्स्ड RL चरण पूरी तरह से On-Policy Distillation (OPD, ऑनलाइन नीति डिस्टिलेशन) द्वारा प्रतिस्थापित कर दिया गया है। नया प्रक्रिया दो चरणों में विभाजित है। पहला चरण: गणित, कोड, एजेंट और निर्देश अनुसरण जैसे क्षेत्रों के लिए, V3.2 पाइपलाइन के आधार पर अलग-अलग क्षेत्रीय विशेषज्ञ मॉडल प्रशिक्षित किए जाते हैं, जहां प्रत्येक विशेषज्ञ पहले सूक्ष्म-समायोजन करता है और फिर GRPO का उपयोग करके प्रबलित शिक्षण करता है। दूसरा चरण: बहु-शिक्षक OPD का उपयोग करके दस से अधिक विशेषज्ञों की क्षमताओं को एक समन्वयित मॉडल में डिस्टिल किया जाता है: छात्र अपने स्वयं के उत्पन्न पथों पर, प्रत्येक शिक्षक के लिए reverse KL डाइवर्जेंस के साथ पूरे वोकैबुलरी logit का डिस्टिलेशन करता है, logit स्तर पर समायोजन के माध्यम से कई विशेषज्ञों के भारों को एक समन्वयित पैरामीटर स्पेस में मिलाया जाता है, जिससे पारंपरिक भार मिलान और मिक्स्ड RL में सामान्यतः होने वाले क्षमता संघर्षों से बचा जा सके। रिपोर्ट में Generative Reward Model (GRM, जनरेटिव पुरस्कार मॉडल) का भी प्रस्ताव है: ऐसे कार्यों के लिए, जिनकी सत्यता को नियमों से सत्यापित करना कठिन होता है, पारंपरिक स्केलर पुरस्कार मॉडल के स्थान पर rubric-निर्देशित RL डेटा का उपयोग करके GRM प्रशिक्षित किया जाता है, जिससे actor नेटवर्क समान रूप से उत्पादन और मूल्यांकन की क्षमता संभालता है, और कुछ ही विविध मानव-अंकित डेटा के साथ-साथ जटिल कार्यों में सामान्यीकरण संभव होता है। (स्रोत: BlockBeats)