ME न्यूज़ के अनुसार, 24 अप्रैल (UTC+8), डिनचा बीटिंग के निगरानी के अनुसार, DeepSeek V4 की बाद की प्रशिक्षण विधि में महत्वपूर्ण परिवर्तन हुए हैं: V3.2 का मिक्स्ड RL चरण पूरी तरह से On-Policy Distillation (OPD, ऑनलाइन नीति डिस्टिलेशन) द्वारा प्रतिस्थापित कर दिया गया है। नया प्रक्रिया दो चरणों में विभाजित है। पहला चरण: गणित, कोड, एजेंट और निर्देश अनुसरण जैसे क्षेत्रों के लिए, V3.2 पाइपलाइन के आधार पर अलग-अलग क्षेत्रीय विशेषज्ञ मॉडल प्रशिक्षित किए जाते हैं, जहां प्रत्येक विशेषज्ञ पहले सूक्ष्म-समायोजन करता है और फिर GRPO का उपयोग करके प्रबलित शिक्षण करता है। दूसरा चरण: बहु-शिक्षक OPD का उपयोग करके दस से अधिक विशेषज्ञों की क्षमताओं को एक समन्वयित मॉडल में डिस्टिल किया जाता है: छात्र अपने स्वयं के उत्पन्न पथों पर, प्रत्येक शिक्षक के लिए reverse KL डाइवर्जेंस के साथ पूरे वोकैबुलरी logit का डिस्टिलेशन करता है, logit स्तर पर समायोजन के माध्यम से कई विशेषज्ञों के भारों को एक समन्वयित पैरामीटर स्पेस में मिलाया जाता है, जिससे पारंपरिक भार मिलान और मिक्स्ड RL में सामान्यतः होने वाले क्षमता संघर्षों से बचा जा सके। रिपोर्ट में Generative Reward Model (GRM, जनरेटिव पुरस्कार मॉडल) का भी प्रस्ताव है: ऐसे कार्यों के लिए, जिनकी सत्यता को नियमों से सत्यापित करना कठिन होता है, पारंपरिक स्केलर पुरस्कार मॉडल के स्थान पर rubric-निर्देशित RL डेटा का उपयोग करके GRM प्रशिक्षित किया जाता है, जिससे actor नेटवर्क समान रूप से उत्पादन और मूल्यांकन की क्षमता संभालता है, और कुछ ही विविध मानव-अंकित डेटा के साथ-साथ जटिल कार्यों में सामान्यीकरण संभव होता है। (स्रोत: BlockBeats)
DeepSeek V4 ट्रेनिंग विधि OPD में स्थानांतरित हो गई है, विशेषज्ञ मॉडल्स को एकीकृत किया गया है
KuCoinFlashसाझा करें






डीपसीक V4 के प्रशिक्षण में अब V3.2 के मिश्रित RL चरण के स्थान पर OPD का उपयोग किया जा रहा है। गणित, कोड और निर्देश पालन में विशेषज्ञों को पहले प्रशिक्षित किया जाता है, फिर बहु-शिक्षक OPD के माध्यम से एक मॉडल में संकलित किया जाता है। एक GRM न्यूनतम मानव डेटा के साथ जटिल कार्यों में सहायता करता है। यह बदलाव CFT प्रोटोकॉल के कठोरीकरण और परियोजनाओं द्वारा दक्षता की ओर बढ़ती रुचि के साथ समानांतर है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।