بڑے ماڈل کے پوسٹ ٹریننگ میں نئی دریافتوں: خود پیدا کردہ ڈیٹا کے ساتھ ان-ٹریک ٹریننگ ماڈلز کو بہتر بنانے میں مدد کرتی ہے

icon MarsBit
بانٹیں
AI summary iconخلاصہ

Beating مانیٹرنگ کے مطابق، بڑے ماڈل کی پوسٹ ٹریننگ میں "سینکر نمونہ لینا" (یعنی ماڈل کو اپنے اپنے ریل ٹائم میں تخلیق کردہ ڈیٹا پر ٹرین کرنا) ماڈل کی تباہی کو روکنے اور مسائل حل کرنے کی صلاحیت بڑھانے کا اہم نقطہ ہے۔ آن لائن ری انفورسمنٹ لرننگ (RL) اور سینکر ڈسٹلیشن (OPD) کا سنتھیٹک فائن ٹیوننگ (SFT) سے بہتر ہونے کا بنیادی سبب یہ ہے کہ وہ ماڈل کو باہری معیاری جوابات کو یاد رکھنے کے بجائے اپنے خود لکھے گئے مراحل پر آپٹمائز کرتے ہیں۔ SFT معیاری جوابات کو جبری طور پر ڈال دیتا ہے، جس سے ہر الفاظ پر برابر طاقت لگتی ہے، جس سے ماڈل کی اصل معلومات کی ساخت خراب ہو جاتی ہے اور بھول جانے کا خطرہ بڑھ جاتا ہے۔ دوسری طرف، RL اور OPD ماڈل کو اپنے خود لکھے گئے مسودوں میں بہترین مراحل تلاش کرنے اور انہیں مضبوط بنانے کی اجازت دیتے ہیں۔ اس سے "شروع میں ایک الفاظ غلط لکھ دینا، جس سے باقی تمام مراحل غلط ہو جائیں" والی ت tích خطاؤں سے بچا جا سکتا ہے، اور اپڈیٹ صرف اس علاقے میں ہوتا ہے جہاں ماڈل پہلے سے جانتا ہے، جس سے اصل صلاحیتیں زیادہ سے زیادہ برقرار رہتی ہیں۔ "مینیمم کوڈ ایڈٹنگ" تجربے میں، چاہے SFT یا RL ٹیچر کا استعمال کیا جائے، طالب علم ماڈل کی ایک بار میں درست کوڈ لکھنے کی کامیابی (Pass@1) 80.0% اور 78.7% تھی، جو دونوں ٹیچر ماڈل سے زیادہ تھی۔ حتیٰ کہ SFT ٹیچر نے زائد فائن ٹیوننگ کے باعث شدید "بوقت" (LiveCodeBench کوڈ صلاحیت ٹیسٹ میں 0.320 سے گھٹ کر 0.286) پیدا کر دی، لیکن اس نے تخلیق کردہ طالب علم ماڈل نے 0.297 کا بلند اسکور حاصل کیا، جو تقریباً ٹیچر کے عيوب سے متاثر نہ ہوا، جس سے ثابت ہوتا ہے کہ سینکر مشق ٹیچر کے بدترین عادات کو مؤثر طریقے سے فلٹر کر سکتی ہے۔ ابھی، DeepSeek-V4 اور GLM-5 نے ماڈلز کی ماہرین کی صلاحیتوں کو ضم کرنے کے لئے سینکر ڈسٹلشن شامل کر لیا ہے۔ ماہر تربیت میں، کوڈنگ اور ریاضت جیسے واضح صحیح/غلط والے شعبوں میں RL زائد مناسب ہے، جبکہ تخلیقی اور علم پر مبنی موضوعات مزید مناسب سینکر ڈسٹلشن ہے۔ مستقبل کا حتمی فائن ٹیوننگ الگورتھم، ضرورتاً سینکر ٹریننگ فریم ورک میں، ڈسٹلشن کی بلند موثر صلاحیت (اعلٰى معلومات کا تناسب) اور RL کى ناقص نظر ثانى (بلا رجحان اپڈیٹ) دونوں کو شامل کرنے والے نئے طرīقے تلاش کرے گا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔