ME সংবাদ, ২৪ এপ্রিল (UTC+8), ডিপসিক V4-এর পোস্ট-ট্রেনিং পদ্ধতিতে বড় পরিবর্তন আসে: V3.2-এর মিক্সড RL পর্যায়কে সম্পূর্ণভাবে অন-পলিসি ডিস্টিলেশন (OPD) দ্বারা প্রতিস্থাপন করা হয়েছে। নতুন প্রক্রিয়াটি দুটি ধাপে বিভক্ত। প্রথম ধাপে, গণিত, কোড, এজেন্ট এবং নির্দেশ অনুসরণের মতো ক্ষেত্রগুলিতে V3.2 পাইপলাইনের ভিত্তিতে ক্ষেত্রবিশেষজ্ঞ মডেলগুলি পৃথকভাবে ট্রেন করা হয়, যেখানে প্রতিটি বিশেষজ্ঞ প্রথমে ফাইন-টিউনিংয়ের পর GRPO ব্যবহার করে রিইনফোর্সমেন্ট লার্নিং করে। দ্বিতীয় ধাপে, একাধিক শিক্ষক OPD-এর মাধ্যমে দশটিরও বেশি বিশেষজ্ঞের ক্ষমতা একটি একক মডেলে ডিস্টিল করা হয়: শিক্ষার্থী নিজের তৈরি ট্রাজেক্টরির উপর, প্রতিটি শিক্ষকের জন্য reverse KL-ডাইভারজেন্সের সম্পূর্ণ ভোকাবুলারি logit-ডিস্টিলেশন করে, logit-স্তরের অ্যালাইনমেন্টের মাধ্যমে একাধিক বিশেষজ্ঞেরওয়েটসগুলি একক প্যারামিটার স্পেসে একীভূত করা হয়, যা ঐতিহ্যগত weight merging এবং mixed RL-এর সাধারণতঃ দেখা যাওয়া ক্ষমতা-সংঘাতগুলির প্রতিরোধ করে। রিপোর্টটি Generative Reward Model (GRM, জেনারেটিভ রিওয়ার্ড মডেল)ও প্রস্তাব করে: নিয়মগুলির দ্বারা যাচাইকরণযোগ্য নয়,এমন কাজগুলির জন্য, পারমাণবিক পুরস্কার মডেল ট্রেন করা হয় না, বরং rubric-পরিচালিত RL ডেটা দিয়ে GRM ট্রেন করা হয়, যাতে actor নেটওয়ার্ক একসঙ্গে উৎপাদন এবং মূল্যায়ন ক্ষমতা পায়, এবং অল্প সংখ্যক বৈচিত্রময় মানব-অঙ্কিত ডেটা দিয়ে জটিল কাজগুলি পরিচালনা করা যায়। (উৎস: BlockBeats)
DeepSeek V4 ট্রেনিং পদ্ধতি OPD-এ স্থানান্তরিত হয়েছে, এক্সপার্ট মডেলগুলি একীভূত হয়েছে
KuCoinFlashশেয়ার






ডিপসিক V4 ট্রেনিং এখন V3.2-এর মিক্সড RL স্টেজ থেকে স্থানান্তরিত হয়ে OPD ব্যবহার করছে। গণিত, কোড এবং নির্দেশ অনুসরণে বিশেষজ্ঞদের প্রথমে ট্রেন করা হয়, তারপর মাল্টি-টিচার OPD এর মাধ্যমে একটি মডেলে ডিস্টিল করা হয়। জটিল কাজগুলির জন্য একটি GRM কম মানুষের ডেটা ব্যবহার করে সহায়তা করে। এই পরিবর্তনটি CFT প্রোটোকলগুলির কঠোরতা এবং প্রকল্পগুলির দক্ষতা অর্জনের প্রতি বৃদ্ধি পাওয়া ঝোঁক-ভিত্তিক সম্পদের আগ্রহের সাথে সঙ্গতিপূর্ণ।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।