أخبار ME، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، شهدت منهجية التدريب الإضافي لـ DeepSeek V4 تغييرات كبيرة: تم استبدال مرحلة mixed RL في V3.2 بالكامل بـ On-Policy Distillation (OPD). تتكون العملية الجديدة من خطوتين. في الخطوة الأولى، يتم تدريب نماذج خبراء متخصصة في مجالات مثل الرياضيات والبرمجة والوكيل واتباع الأوامر، بناءً على خط أنابيب V3.2، حيث يتم أولاً الدقة الدقيقة لكل خبير ثم استخدام GRPO للتعلم المعزز. في الخطوة الثانية، يتم تكثيف قدرات أكثر من عشرة خبراء في نموذج موحد باستخدام OPD متعدد المعلمين: حيث يقوم الطالب بعملية تكثيف كاملة لقائمة المفردات على مستوى logits لجميع المعلمين على مساراته الخاصة، باستخدام reverse KL divergence، مما يجمع أوزان الخبراء المتعددة في فضاء معلمات موحد من خلال التوافق على مستوى logits، ويتجنب الصراعات الشائعة في القدرات الناتجة عن دمج الأوزان التقليدي وmixed RL. كما يقترح التقرير نموذج المكافأة التوليدية (GRM): بدلاً من تدريب نماذج مكافأة قياسية تقليدية للمهام التي يصعب التحقق منها بالقواعد، يتم تدريب GRM باستخدام بيانات RL المستندة إلى معايير تقييم، مما يسمح لشبكة actor بتحمل وظيفتي التوليد والتقييم معًا، مع القدرة على التعميم على المهام المعقدة باستخدام عدد قليل فقط من التصنيفات البشرية المتنوعة. (المصدر: BlockBeats)
تحول منهجية تدريب DeepSeek V4 إلى OPD، ودمج النماذج الخبيرة
KuCoinFlashمشاركة






يستخدم تدريب DeepSeek V4 الآن OPD بعد الانتقال من مرحلة RL المختلطة في V3.2. يتم تدريب الخبراء في الرياضيات والبرمجة واتباع التعليمات أولاً، ثم تقطيعها إلى نموذج واحد عبر OPD متعدد المعلمين. يساعد GRM في المهام المعقدة باستخدام الحد الأدنى من البيانات البشرية. يتوافق هذا التحول مع بروتوكولات CFT الأكثر صرامة وزيادة الاهتمام بالأصول ذات المخاطر العالية مع سعي المشاريع لتعزيز الكفاءة.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.