Beating মনিটরিং-এর অনুসন্ধান অনুসারে, বড় মডেলের পোস্ট-ট্রেনিংয়ের মধ্যে «সমান ট্র্যাক স্যাম্পলিং» (যেখানে মডেল নিজের রিয়েল-টাইম জেনারেট করা ডেটা দিয়ে ট্রেন করে) হল মডেলের ডিগ্রেডেশন রোধ করা এবং সমস্যা সমাধানের ক্ষমতা বাড়ানোর জন্য কী। অনলাইন রিইনফোর্সমেন্ট লার্নিং (RL) এবং সমান ট্র্যাক ডিস্টিলেশন (OPD) যেহেতু প্রচলিত সুপারভাইজড ফাইন-টিউনিং (SFT)-এর চেয়ে ভালো, তার মূল কারণ হল এগুলি মডেলকে বাইরের স্ট্যান্ডার্ড উত্তরগুলি মুখস্থ করতে বাধ্য করে না, বরং নিজেদের লিখিত ধাপগুলির ভিত্তিতে অপটিমাইজ করে। SFT-এর দ্বারা স্ট্যান্ডার্ড উত্তরগুলি জোরপূর্বক প্রবেশ করানো, প্রতিটি শব্দের উপর সমানভাবে মডেলকে পরিবর্তনের বল প্রয়োগ করে, যা সহজেই মডেলের মূলজ্ঞানগত কাঠামোকে ভাঙতে পারে এবংভুলেয়াতেও। SFT-এর বিপরীতে, RL এবং OPD-এর মাধ্যমে, মডেলটি নিজেদেরই লিখিতখসখসিরা (drafts) -এরমধ্যেদিয়েসবচেয়েভালোধাপগুলিকেখুঁজেপায়এবংশক্তিশালীকরণকরে।এটি«প্রথমশব্দটিভুলহল,পরবর্তীসবকিছুভুলহয়েযায়»-এরযৌথত্রুটিরপ্রতিরোধকরেএবংআপডেটগুলিশুধুমডেলটিরপরিচিতজ্ঞানক্ষেত্রগুলিতেইসীমাবদ্ধথাকে,ফলস্বরূপমূলক্ষমতাগুলিকেসর্বোচ্চসীমাপর্যন্তসংরক্ষণকরে।«সর্বনিম্নকোডএডিটিং»পরীক্ষায়, SFT-এবংRL-মন্টরদেরউভয়ক্ষেত্রেইসমানট্র্যাকডিস্টিলেশনব্যবহারকরে,শিক্ষার্থীমডেলগুলি'পাস@1'সফলতা(অর্থাৎ,একবারইসঠিককোডলিখা)80.0%এবং78.7%হয়,যামন্টরমডেলগুলিরচেয়েউচ্চ।যদিওSFT-মন্টরগুলিঅতি-ফাইন-টিউনিংয়েরকারণেঅতিশয়«বোকা»হয়েপড়ে(LiveCodeBenchকোডক্ষমতা-পরীক্ষায়0.320থেকে0.286-এনিচে),তবুওতাদেরশিক্ষাদত্তশিক্ষার্থীমডেলগুলি0.297-একটিউচ্চস্কোরঅর্জনকরে,যাপ্রমাণকরেযেসমানট্র্যাকঅনুশীলনমন্টরদেরখারাপঅভ্যাসগুলিকেপ্রভাবশালীভাবেফিলটারকরতেপারে।বর্তমানে,DeepSeek-V4এবংGLM-5-এসমানট্র্যাকডিস্টিলেশনব্যবহারকরাহচছয়একটিবিশেষজ্ঞমডেলগুলিরক্ষমতাএকত্রিতকরত।বিশেষজ্ঞট্রেইনিংয়ে,কোডএবংগণিত-এরমতঅনিরপদশদয়খণডগুলিRL-এরজন্যউপযুক্ত,আবারসৃজনশীলএবংজ্ঞানভিত্তিকআধা-বিষয়গুলিOPD-এরজন্যউপযুক্ত।ভবিষ্যতে,অবশ্যইসমানট্র্যাকট্রইনিংফ্রেমওয়ার্ক-এএমনএকটিনতুনপদধি(mechanism)খুঁজতেহব,যাডিসটিলশন-এরউচচদকষ(হাই-ইনফো-ডেনসিটি)এবংRL-এরবস্তব(অ-পকষপাৎ)আপডেট-এদুইটি'আদশ'কথা'সঙ্গহ'অ'জ'আ'।
বড় মডেল পোস্ট-ট্রেনিংয়ে নতুন ফলাফল: নিজে তৈরি ডেটা দিয়ে ইন-ট্র্যাক ট্রেনিং মডেলগুলিকে উন্নত করতে সাহায্য করে
MarsBitশেয়ার
নতুন গবেষণা দেখিয়েছে যে নিজের তৈরি ডেটা দিয়ে ট্র্যাকের মধ্যে প্রশিক্ষণ হল মডেলের কর্মক্ষমতা বাড়ানো এবং অবনতি এড়ানোর একটি প্রধান পদ্ধতি। পারম্পরিক SFT-এর বিপরীতে, অনলাইন RL এবং ট্র্যাকের মধ্যে ডিস্টিলেশন (OPD) মডেলগুলিকে বাস্তব-সময়ে নিজেদের ধাপগুলি পরিশোধন করতে দেয়। সাম্প্রতিক পরীক্ষাগুলি দেখিয়েছে যে এই পদ্ধতিতে প্রশিক্ষিত শিষ্য মডেলগুলি মেন্টরদের চেয়েও ভালো করছে, এমনকি যখন মুদ্রাস্ফীতির ডেটা এবং বাজারের পরিবর্তনগুলি বাহ্যিক বেঞ্চমার্ককে প্রভাবিত করছিল। DeepSeek-V4 এবং GLM-5-এর মতো প্ল্যাটফর্মগুলি ইতিমধ্যেই এই পদ্ধতি ব্যবহার করছে বিশেষজ্ঞদের জ্ঞানকে একত্রিত করতে। নতুন টোকেন লিস্টিংগুলি ট্র্যাকের মধ্যে ডিস্টিলেশন ব্যবহার করে আরও সঠিক এবং অভিযোজনযোগ্য মডেলগুলির সুবিধা নিতে পারে।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।