1.6 ট্রিলিয়ন প্যারামিটার এবং MIT লাইসেন্স সহ ডিপসিক V4 সিরিজ প্রকাশিত

iconChainthink
শেয়ার
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconসারাংশ

expand icon
অ্যাপ্রিল ২৪-এ অন-চেইন সংবাদ প্রকাশিত হয় যখন DeepSeek MIT লাইসেন্সের অধীনে V4 সিরিজ প্রকাশ করে। এই মডেলগুলি, এখন Hugging Face এবং ModelScope-এ উপলব্ধ, যার মধ্যে রয়েছে V4-Pro (1.6 ট্রিলিয়ন প্যারামিটার) এবং V4-Flash (284 বিলিয়ন প্যারামিটার), যারা উভয়েই 1 মিলিয়ন টোকেন কনটেক্সট সমর্থন করে। V4 সিরিজ তিনটি আর্কিটেকচারাল আপগ্রেড চালু করে, যার মধ্যে রয়েছে একটি হাইব্রিড অ্যাটেনশন মেকানিজম যা দীর্ঘ-কনটেক্সট খরচ কমায়। V4-Pro V3.2-এর 27% FLOPs এবং 10% KV ক্যাশে মেমোরি ব্যবহার করে। 32T টোকেনের উপর প্রশিক্ষিত, এই মডেলগুলি SFT, GRPO এবং অনলাইন ডিস্টিলেশন ব্যবহার করে। এই উন্নত দক্ষতার কারণে নতুন টোকেন লিস্টিংগুলির উপকারিতা হতে পারে।

চেইনথিংক মেসেজ, ২৪ এপ্রিল, অফিসিয়াল তথ্য অনুযায়ী, ডিপসিক ওপেন-সোর্স V4 সিরিজের প্রিভিউ ভার্সন, MIT লাইসেন্স অনুযায়ী, মডেল ওয়েটস Hugging Face এবং ModelScope-এ আপলোড করা হয়েছে।


এই সিরিজে দুটি MoE মডেল রয়েছে, যার মধ্যে V4-Pro-এর মোট প্যারামিটার 1.6 ট্রিলিয়ন এবং প্রতি টোকেনে 490 বিলিয়ন প্যারামিটার সক্রিয় হয়;


V4-Flash-এর মোট প্যারামিটার 2840 বিলিয়ন, প্রতিটি টোকেনের জন্য 130 বিলিয়ন প্যারামিটার সক্রিয় হয়, উভয়েরই 1M টোকেন কনটেক্সট সমর্থন করে।


এই আর্কিটেকচারে তিনটি আপগ্রেড রয়েছে: মিক্সড অ্যাটেনশন মেকানিজম (কম্প্রেসড স্পার্স অ্যাটেনশন CSA+ হাইলি কম্প্রেসড অ্যাটেনশন HCA) দীর্ঘ কনটেক্সট ওভারহেড কমিয়ে দেয়, 1M কনটেক্সট সিনারিওতে, V4-Pro-এর একক টোকেন ইনফারেন্স FLOPs কেবলমাত্র V3.2-এর 27% এবং KV ক্যাশে মেমোরি ব্যবহার কেবলমাত্র V3.2-এর 10%।


ম্যানিফোল্ড কনস্ট্রেইন্ট সুপার-কানেকশন mHC প্রাচীন রেজিডুয়াল কানেকশনকে প্রতিস্থাপন করে, যা স্তরগুলির মধ্যে সংকেত প্রচারের স্থিতিশীলতা বাড়ায়; প্রশিক্ষণের জন্য Muon অপ্টিমাইজার ব্যবহার করা হয় যা অভিসরণকে ত্বরান্বিত করে। এই মডেলটির প্রি-ট্রেনিং ডেটা 32T টোকেনের বেশি।


পরের প্রশিক্ষণ দুটি পর্যায়ে বিভক্ত: প্রথমে SFT এবং GRPO রিইনফোর্সমেন্ট লার্নিং ব্যবহার করে প্রতিটি ক্ষেত্রের বিশেষজ্ঞ মডেল প্রশিক্ষিত হয়, তারপর অনলাইন ডিস্টিলেশনের মাধ্যমে এগুলিকে একটি চূড়ান্ত মডেলে একীভূত করা হয়।


যেখানে V4-Pro-Max নিজেকে বর্তমানের সবচেয়ে শক্তিশালী ওপেন-সোর্স মডেল হিসাবে দাবি করে, যার কোডিং বেঞ্চমার্ক শীর্ষ স্তরের এবং উপসংহার এবং এজেন্ট কাজের ক্ষেত্রে বন্ধ সোর্স অগ্রগামী মডেলগুলির সাথে ব্যাপকভাবে কমিয়ে দেওয়া হয়েছে;


V4-Flash-Max যথেষ্ট চিন্তার বাজেট পাওয়ার পর Pro-এর মতো যুক্তিসঙ্গত পারফরম্যান্স দেখায়, তবে শুধুমাত্র জ্ঞান এবং জটিল এজেন্ট টাস্কে প্যারামিটার সাইজের কারণে সীমাবদ্ধ। মডেল ওয়েট FP4+FP8 মিক্সড প্রিসিশনে সংরক্ষণ করা হয়।

দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না। ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।