DeepSeek V4 ट्रेनिंग विधि OPD में स्थानांतरित हो गई है, विशेषज्ञ मॉडल्स को एकीकृत किया गया है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
डीपसीक V4 के प्रशिक्षण में अब V3.2 के मिश्रित RL चरण के स्थान पर OPD का उपयोग किया जा रहा है। गणित, कोड और निर्देश पालन में विशेषज्ञों को पहले प्रशिक्षित किया जाता है, फिर बहु-शिक्षक OPD के माध्यम से एक मॉडल में संकलित किया जाता है। एक GRM न्यूनतम मानव डेटा के साथ जटिल कार्यों में सहायता करता है। यह बदलाव CFT प्रोटोकॉल के कठोरीकरण और परियोजनाओं द्वारा दक्षता की ओर बढ़ती रुचि के साथ समानांतर है।

ME न्यूज़ के अनुसार, 24 अप्रैल (UTC+8), डिनचा बीटिंग के निगरानी के अनुसार, DeepSeek V4 की बाद की प्रशिक्षण विधि में महत्वपूर्ण परिवर्तन हुए हैं: V3.2 का मिक्स्ड RL चरण पूरी तरह से On-Policy Distillation (OPD, ऑनलाइन नीति डिस्टिलेशन) द्वारा प्रतिस्थापित कर दिया गया है। नया प्रक्रिया दो चरणों में विभाजित है। पहला चरण: गणित, कोड, एजेंट और निर्देश अनुसरण जैसे क्षेत्रों के लिए, V3.2 पाइपलाइन के आधार पर अलग-अलग क्षेत्रीय विशेषज्ञ मॉडल प्रशिक्षित किए जाते हैं, जहां प्रत्येक विशेषज्ञ पहले सूक्ष्म-समायोजन करता है और फिर GRPO का उपयोग करके प्रबलित शिक्षण करता है। दूसरा चरण: बहु-शिक्षक OPD का उपयोग करके दस से अधिक विशेषज्ञों की क्षमताओं को एक समन्वयित मॉडल में डिस्टिल किया जाता है: छात्र अपने स्वयं के उत्पन्न पथों पर, प्रत्येक शिक्षक के लिए reverse KL डाइवर्जेंस के साथ पूरे वोकैबुलरी logit का डिस्टिलेशन करता है, logit स्तर पर समायोजन के माध्यम से कई विशेषज्ञों के भारों को एक समन्वयित पैरामीटर स्पेस में मिलाया जाता है, जिससे पारंपरिक भार मिलान और मिक्स्ड RL में सामान्यतः होने वाले क्षमता संघर्षों से बचा जा सके। रिपोर्ट में Generative Reward Model (GRM, जनरेटिव पुरस्कार मॉडल) का भी प्रस्ताव है: ऐसे कार्यों के लिए, जिनकी सत्यता को नियमों से सत्यापित करना कठिन होता है, पारंपरिक स्केलर पुरस्कार मॉडल के स्थान पर rubric-निर्देशित RL डेटा का उपयोग करके GRM प्रशिक्षित किया जाता है, जिससे actor नेटवर्क समान रूप से उत्पादन और मूल्यांकन की क्षमता संभालता है, और कुछ ही विविध मानव-अंकित डेटा के साथ-साथ जटिल कार्यों में सामान्यीकरण संभव होता है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।