DeepSeek V4 ট্রেনিং পদ্ধতি OPD-এ স্থানান্তরিত হয়েছে, এক্সপার্ট মডেলগুলি একীভূত হয়েছে

iconKuCoinFlash
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
ডিপসিক V4 ট্রেনিং এখন V3.2-এর মিক্সড RL স্টেজ থেকে স্থানান্তরিত হয়ে OPD ব্যবহার করছে। গণিত, কোড এবং নির্দেশ অনুসরণে বিশেষজ্ঞদের প্রথমে ট্রেন করা হয়, তারপর মাল্টি-টিচার OPD এর মাধ্যমে একটি মডেলে ডিস্টিল করা হয়। জটিল কাজগুলির জন্য একটি GRM কম মানুষের ডেটা ব্যবহার করে সহায়তা করে। এই পরিবর্তনটি CFT প্রোটোকলগুলির কঠোরতা এবং প্রকল্পগুলির দক্ষতা অর্জনের প্রতি বৃদ্ধি পাওয়া ঝোঁক-ভিত্তিক সম্পদের আগ্রহের সাথে সঙ্গতিপূর্ণ।

ME সংবাদ, ২৪ এপ্রিল (UTC+8), ডিপসিক V4-এর পোস্ট-ট্রেনিং পদ্ধতিতে বড় পরিবর্তন আসে: V3.2-এর মিক্সড RL পর্যায়কে সম্পূর্ণভাবে অন-পলিসি ডিস্টিলেশন (OPD) দ্বারা প্রতিস্থাপন করা হয়েছে। নতুন প্রক্রিয়াটি দুটি ধাপে বিভক্ত। প্রথম ধাপে, গণিত, কোড, এজেন্ট এবং নির্দেশ অনুসরণের মতো ক্ষেত্রগুলিতে V3.2 পাইপলাইনের ভিত্তিতে ক্ষেত্রবিশেষজ্ঞ মডেলগুলি পৃথকভাবে ট্রেন করা হয়, যেখানে প্রতিটি বিশেষজ্ঞ প্রথমে ফাইন-টিউনিংয়ের পর GRPO ব্যবহার করে রিইনফোর্সমেন্ট লার্নিং করে। দ্বিতীয় ধাপে, একাধিক শিক্ষক OPD-এর মাধ্যমে দশটিরও বেশি বিশেষজ্ঞের ক্ষমতা একটি একক মডেলে ডিস্টিল করা হয়: শিক্ষার্থী নিজের তৈরি ট্রাজেক্টরির উপর, প্রতিটি শিক্ষকের জন্য reverse KL-ডাইভারজেন্সের সম্পূর্ণ ভোকাবুলারি logit-ডিস্টিলেশন করে, logit-স্তরের অ্যালাইনমেন্টের মাধ্যমে একাধিক বিশেষজ্ঞেরওয়েটসগুলি একক প্যারামিটার স্পেসে একীভূত করা হয়, যা ঐতিহ্যগত weight merging এবং mixed RL-এর সাধারণতঃ দেখা যাওয়া ক্ষমতা-সংঘাতগুলির প্রতিরোধ করে। রিপোর্টটি Generative Reward Model (GRM, জেনারেটিভ রিওয়ার্ড মডেল)ও প্রস্তাব করে: নিয়মগুলির দ্বারা যাচাইকরণযোগ্য নয়,এমন কাজগুলির জন্য,  পারমাণবিক  পুরস্কার  মডেল  ট্রেন  করা  হয়  না,  বরং  rubric-পরিচালিত  RL  ডেটা  দিয়ে  GRM  ট্রেন  করা  হয়,  যাতে  actor  নেটওয়ার্ক  একসঙ্গে  উৎপাদন  এবং  মূল্যায়ন  ক্ষমতা  পায়,  এবং  অল্প  সংখ্যক  বৈচিত্রময়  মানব-অঙ্কিত  ডেটা  দিয়ে  জটিল  কাজগুলি  পরিচালনা  করা  যায়। (উৎস: BlockBeats)

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।