বড় মডেল পোস্ট-ট্রেনিংয়ে নতুন ফলাফল: নিজে তৈরি ডেটা দিয়ে ইন-ট্র্যাক ট্রেনিং মডেলগুলিকে উন্নত করতে সাহায্য করে

Beating মনিটরিং-এর অনুসন্ধান অনুসারে, বড় মডেলের পোস্ট-ট্রেনিংয়ের মধ্যে «সমান ট্র্যাক স্যাম্পলিং» (যেখানে মডেল নিজের রিয়েল-টাইম জেনারেট করা ডেটা দিয়ে ট্রেন করে) হল মডেলের ডিগ্রেডেশন রোধ করা এবং সমস্যা সমাধানের ক্ষমতা বাড়ানোর জন্য কী। অনলাইন রিইনফোর্সমেন্ট লার্নিং (RL) এবং সমান ট্র্যাক ডিস্টিলেশন (OPD) যেহেতু প্রচলিত সুপারভাইজড ফাইন-টিউনিং (SFT)-এর চেয়ে ভালো, তার মূল কারণ হল এগুলি মডেলকে বাইরের স্ট্যান্ডার্ড উত্তরগুলি মুখস্থ করতে বাধ্য করে না, বরং নিজেদের লিখিত ধাপগুলির ভিত্তিতে অপটিমাইজ করে। SFT-এর দ্বারা স্ট্যান্ডার্ড উত্তরগুলি জোরপূর্বক প্রবেশ করানো, প্রতিটি শব্দের উপর সমানভাবে মডেলকে পরিবর্তনের বল প্রয়োগ করে, যা সহজেই মডেলের মূলজ্ঞানগত কাঠামোকে ভাঙতে পারে এবংভুলেয়াতেও। SFT-এর বিপরীতে, RL এবং OPD-এর মাধ্যমে, মডেলটি নিজেদেরই লিখিতখসখসিরা (drafts) -এরমধ্যেদিয়েসবচেয়েভালোধাপগুলিকেখুঁজেপায়এবংশক্তিশালীকরণকরে।এটি«প্রথমশব্দটিভুলহল,পরবর্তীসবকিছুভুলহয়েযায়»-এরযৌথত্রুটিরপ্রতিরোধকরেএবংআপডেটগুলিশুধুমডেলটিরপরিচিতজ্ঞানক্ষেত্রগুলিতেইসীমাবদ্ধথাকে,ফলস্বরূপমূলক্ষমতাগুলিকেসর্বোচ্চসীমাপর্যন্তসংরক্ষণকরে।«সর্বনিম্নকোডএডিটিং»পরীক্ষায়, SFT-এবংRL-মন্টরদেরউভয়ক্ষেত্রেইসমানট্র্যাকডিস্টিলেশনব্যবহারকরে,শিক্ষার্থীমডেলগুলি'পাস@1'সফলতা(অর্থাৎ,একবারইসঠিককোডলিখা)80.0%এবং78.7%হয়,যামন্টরমডেলগুলিরচেয়েউচ্চ।যদিওSFT-মন্টরগুলিঅতি-ফাইন-টিউনিংয়েরকারণেঅতিশয়«বোকা»হয়েপড়ে(LiveCodeBenchকোডক্ষমতা-পরীক্ষায়0.320থেকে0.286-এনিচে),তবুওতাদেরশিক্ষাদত্তশিক্ষার্থীমডেলগুলি0.297-একটিউচ্চস্কোরঅর্জনকরে,যাপ্রমাণকরেযেসমানট্র্যাকঅনুশীলনমন্টরদেরখারাপঅভ্যাসগুলিকেপ্রভাবশালীভাবেফিলটারকরতেপারে।বর্তমানে,DeepSeek-V4এবংGLM-5-এসমানট্র্যাকডিস্টিলেশনব্যবহারকরাহচছয়একটিবিশেষজ্ঞমডেলগুলিরক্ষমতাএকত্রিতকরত।বিশেষজ্ঞট্রেইনিংয়ে,কোডএবংগণিত-এরমতঅনিরপদশদয়খণডগুলিRL-এরজন্যউপযুক্ত,আবারসৃজনশীলএবংজ্ঞানভিত্তিকআধা-বিষয়গুলিOPD-এরজন্যউপযুক্ত।ভবিষ্যতে,অবশ্যইসমানট্র্যাকট্রইনিংফ্রেমওয়ার্ক-এএমনএকটিনতুনপদধি(mechanism)খুঁজতেহব,যাডিসটিলশন-এরউচচদকষ(হাই-ইনফো-ডেনসিটি)এবংRL-এরবস্‌তব(অ-পকষপাৎ)আপডেট-এদুইটি'আদশ'কথা'সঙ্‌গহ'অ'জ'আ'।