ڈیپ سیک V4 کی تربیت کی منہجیت OPD پر منتقل ہو گئی، ماہر ماڈلز کو ضم کر لیا گیا

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ڈیپ سیک V4 کی تربیت اب V3.2 کے مکسڈ RL مرحلے کے بعد OPD کا استعمال کرتی ہے۔ ریاضی، کوڈ اور ہدایات کی پیروی میں ماہرین کو پہلے تربیت دی جاتی ہے، پھر انہیں متعدد ٹیچرز کے ذریعے OPD کے ذریعے ایک مدل میں مکمل کر دیا جاتا ہے۔ GRM کم انسانی ڈیٹا کے ساتھ پیچیدہ کاموں میں مدد کرتا ہے۔ یہ تبدیلی CFT پروٹوکولز کے سخت ہونے اور منصوبوں کی کارکردگی کے لیے رائس-آن اثاثوں میں بڑھتی ہوئی دلچسپی کے ساتھ مماثل ہے۔

ME خبروں کے مطابق، 24 اپریل (UTC+8)، Beating کی نگرانی کے مطابق، DeepSeek V4 کے بعد کی تربیت کا طریقہ کار بڑے پیمانے پر تبدیل ہو گیا ہے: V3.2 کا mixed RL مرحلہ مکمل طور پر On-Policy Distillation (OPD، آن لائن پالیسی ڈسٹلیشن) سے متبادل ہو گیا ہے۔ نیا عمل دو مراحل پر مشتمل ہے۔ پہلا مرحلہ: ریاضی، کوڈ، Agent، اور ہدایات کی پیروی جیسے شعبوں میں، V3.2 پائپ لائن کے بنیاد پر الگ الگ شعبہ جات کے ماہرین ماڈلز کی تربیت کی جاتی ہے، جہاں ہر ماہر پہلے فائن ٹیوننگ کرتا ہے اور پھر GRPO کے ذریعے تقویتی سیکھنا کرتا ہے۔ دوسرا مرحلہ: متعدد اساتذہ OPD کے ذریعے دس سے زائد ماہرین کی صلاحیتیں ایک یکجا ماڈل میں ڈسٹل کی جاتی ہیں: طالب علم اپنی خود تخلیق کردہ ٹرایجکٹریز پر، ہر اساتذہ کے لیے reverse KL ڈائورجنس کے مکمل ورڈ بیک لاجٹ ڈسٹلیشن کرتا ہے، جس سے لاجٹس کے سطح پر مطابقت کے ذریعے متعدد ماہرین کے وزن ایک یکجا پیرامیٹر سپیس میں ضم ہو جاتے ہیں، جس سے روایتی وزن ضم کرنے اور mixed RL میں عام طور پر دیکھے جانے والے صلاحیت کے تنازعات سے بچا جاتا ہے۔ رپورٹ میں Generative Reward Model (GRM، تولیدی انعام ماڈل) بھی پیش کیا گیا ہے: اس طرح کے امور جن کا جائزہ لینا قواعد سے مشکل ہوتا ہے، روایتی اسکالر انعام ماڈلز کی تربیت نہیں بلکہ rubric سے ہدایت شدہ RL ڈیٹا کے ذریعے GRM تربیت دی جاتی ہے، تاکہ actor نیٹ ورک اپنے ساتھ تولید اور جائزہ لینے کی صلاحیت حاصل کر سکے، اور صرف تھوڑے سے متنوع انسانی اینوٹیشنز سے پیچیدہ امور پر عام تعمیر کر سکے۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔