1.6 ট্রিলিয়ন প্যারামিটার এবং MIT লাইসেন্স সহ ডিপসিক V4 সিরিজ প্রকাশিত

চেইনথিংক মেসেজ, ২৪ এপ্রিল, অফিসিয়াল তথ্য অনুযায়ী, ডিপসিক ওপেন-সোর্স V4 সিরিজের প্রিভিউ ভার্সন, MIT লাইসেন্স অনুযায়ী, মডেল ওয়েটস Hugging Face এবং ModelScope-এ আপলোড করা হয়েছে।

এই সিরিজে দুটি MoE মডেল রয়েছে, যার মধ্যে V4-Pro-এর মোট প্যারামিটার 1.6 ট্রিলিয়ন এবং প্রতি টোকেনে 490 বিলিয়ন প্যারামিটার সক্রিয় হয়;

V4-Flash-এর মোট প্যারামিটার 2840 বিলিয়ন, প্রতিটি টোকেনের জন্য 130 বিলিয়ন প্যারামিটার সক্রিয় হয়, উভয়েরই 1M টোকেন কনটেক্সট সমর্থন করে।

এই আর্কিটেকচারে তিনটি আপগ্রেড রয়েছে: মিক্সড অ্যাটেনশন মেকানিজম (কম্প্রেসড স্পার্স অ্যাটেনশন CSA+ হাইলি কম্প্রেসড অ্যাটেনশন HCA) দীর্ঘ কনটেক্সট ওভারহেড কমিয়ে দেয়, 1M কনটেক্সট সিনারিওতে, V4-Pro-এর একক টোকেন ইনফারেন্স FLOPs কেবলমাত্র V3.2-এর 27% এবং KV ক্যাশে মেমোরি ব্যবহার কেবলমাত্র V3.2-এর 10%।

ম্যানিফোল্ড কনস্ট্রেইন্ট সুপার-কানেকশন mHC প্রাচীন রেজিডুয়াল কানেকশনকে প্রতিস্থাপন করে, যা স্তরগুলির মধ্যে সংকেত প্রচারের স্থিতিশীলতা বাড়ায়; প্রশিক্ষণের জন্য Muon অপ্টিমাইজার ব্যবহার করা হয় যা অভিসরণকে ত্বরান্বিত করে। এই মডেলটির প্রি-ট্রেনিং ডেটা 32T টোকেনের বেশি।

পরের প্রশিক্ষণ দুটি পর্যায়ে বিভক্ত: প্রথমে SFT এবং GRPO রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রতিটি ক্ষেত্রের বিশেষজ্ঞ মডেল প্রশিক্ষিত হয়, তারপর অনলাইন ডিস্টিলেশনের মাধ্যমে এগুলিকে একটি চূড়ান্ত মডেলে একীভূত করা হয়।

যেখানে V4-Pro-Max নিজেকে বর্তমানের সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেল হিসাবে দাবি করে, যার কোডিং বেঞ্চমার্ক শীর্ষ স্তরের এবং উপসংহার এবং এজেন্ট কাজের ক্ষেত্রে বন্ধ সোর্স অগ্রগামী মডেলগুলির সাথে ব্যাপকভাবে কমিয়ে দেওয়া হয়েছে;

V4-Flash-Max যথেষ্ট চিন্তার বাজেট পাওয়ার পর Pro-এর মতো যুক্তিসঙ্গত পারফরম্যান্স দেখায়, তবে শুধুমাত্র জ্ঞান এবং জটিল এজেন্ট টাস্কে প্যারামিটার সাইজের কারণে সীমাবদ্ধ। মডেল ওয়েট FP4+FP8 মিক্সড প্রিসিশনে সংরক্ষণ করা হয়।