DeepSeek V4 ট্রেনিং পদ্ধতি OPD-এ স্থানান্তরিত হয়েছে, এক্সপার্ট মডেলগুলি একীভূত হয়েছে

KuCoinFlash

রিলিজের সময়: ২৪/০৪/২০২৬, ০৪:২০:৪৯

সারাংশ

ডিপসিক V4 ট্রেনিং এখন V3.2-এর মিক্সড RL স্টেজ থেকে স্থানান্তরিত হয়ে OPD ব্যবহার করছে। গণিত, কোড এবং নির্দেশ অনুসরণে বিশেষজ্ঞদের প্রথমে ট্রেন করা হয়, তারপর মাল্টি-টিচার OPD এর মাধ্যমে একটি মডেলে ডিস্টিল করা হয়। জটিল কাজগুলির জন্য একটি GRM কম মানুষের ডেটা ব্যবহার করে সহায়তা করে। এই পরিবর্তনটি CFT প্রোটোকলগুলির কঠোরতা এবং প্রকল্পগুলির দক্ষতা অর্জনের প্রতি বৃদ্ধি পাওয়া ঝোঁক-ভিত্তিক সম্পদের আগ্রহের সাথে সঙ্গতিপূর্ণ।

ME সংবাদ, ২৪ এপ্রিল (UTC+8), ডিপসিক V4-এর পোস্ট-ট্রেনিং পদ্ধতিতে বড় পরিবর্তন আসে: V3.2-এর মিক্সড RL পর্যায়কে সম্পূর্ণভাবে অন-পলিসি ডিস্টিলেশন (OPD) দ্বারা প্রতিস্থাপন করা হয়েছে। নতুন প্রক্রিয়াটি দুটি ধাপে বিভক্ত। প্রথম ধাপে, গণিত, কোড, এজেন্ট এবং নির্দেশ অনুসরণের মতো ক্ষেত্রগুলিতে V3.2 পাইপলাইনের ভিত্তিতে ক্ষেত্রবিশেষজ্ঞ মডেলগুলি পৃথকভাবে ট্রেন করা হয়, যেখানে প্রতিটি বিশেষজ্ঞ প্রথমে ফাইন-টিউনিংয়ের পর GRPO ব্যবহার করে রিইনফোর্সমেন্ট লার্নিং করে। দ্বিতীয় ধাপে, একাধিক শিক্ষক OPD-এর মাধ্যমে দশটিরও বেশি বিশেষজ্ঞের ক্ষমতা একটি একক মডেলে ডিস্টিল করা হয়: শিক্ষার্থী নিজের তৈরি ট্রাজেক্টরির উপর, প্রতিটি শিক্ষকের জন্য reverse KL-ডাইভারজেন্সের সম্পূর্ণ ভোকাবুলারি logit-ডিস্টিলেশন করে, logit-স্তরের অ্যালাইনমেন্টের মাধ্যমে একাধিক বিশেষজ্ঞেরওয়েটসগুলি একক প্যারামিটার স্পেসে একীভূত করা হয়, যা ঐতিহ্যগত weight merging এবং mixed RL-এর সাধারণতঃ দেখা যাওয়া ক্ষমতা-সংঘাতগুলির প্রতিরোধ করে। রিপোর্টটি Generative Reward Model (GRM, জেনারেটিভ রিওয়ার্ড মডেল)ও প্রস্তাব করে: নিয়মগুলির দ্বারা যাচাইকরণযোগ্য নয়,এমন কাজগুলির জন্য, পারমাণবিক পুরস্কার মডেল ট্রেন করা হয় না, বরং rubric-পরিচালিত RL ডেটা দিয়ে GRM ট্রেন করা হয়, যাতে actor নেটওয়ার্ক একসঙ্গে উৎপাদন এবং মূল্যায়ন ক্ষমতা পায়, এবং অল্প সংখ্যক বৈচিত্রময় মানব-অঙ্কিত ডেটা দিয়ে জটিল কাজগুলি পরিচালনা করা যায়। (উৎস: BlockBeats)

উৎস:আসল দেখান

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।