تم إصدار سلسلة DeepSeek V4 مع 1.6 تريليون معلمة وترخيص MIT

iconChainthink
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
انكسرت أخبار السلسلة في 24 أبريل مع إصدار DeepSeek سلسلة V4 تحت ترخيص MIT. تشمل النماذج، التي أصبحت متاحة الآن على Hugging Face وModelScope، V4-Pro (1.6 تريليون معلمة) وV4-Flash (284 مليار معلمة)، وكلاهما يدعم سياقًا بـ 1 مليون رمز. تقدم سلسلة V4 ثلاث ترقيات هندسية، بما في ذلك آلية انتباه هجينة تقلل من تكاليف السياق الطويل. يستخدم V4-Pro 27% من FLOPs الخاص بـ V3.2 و10% من ذاكرة كاش KV الخاص به. تم تدريب النماذج على أكثر من 32 تريليون رمز، وتستخدم SFT وGRPO والترشيح عبر الإنترنت. قد تستفيد قوائم الرموز الجديدة من هذا الكفاءة المحسنة.

رسالة ChainThink، في 24 أبريل، وفقًا للمعلومات الرسمية ذات الصلة، تم إصدار الإصدار التجريبي لسلسلة DeepSeek V4 مفتوح المصدر بموجب ترخيص MIT، وقد تم رفع أوزان النموذج على Hugging Face وModelScope.


يتضمن هذا السلسلة نموذجين MoE، حيث يبلغ إجمالي معلمات V4-Pro 1.6 تريليون معلمة، مع تفعيل 49 مليار معلمة لكل رمز؛


V4-Flash إجمالي المعلمات 284 مليار، مع تفعيل 13 مليار معلمة لكل رمز، وكلا النسختين تدعمان سياقًا بـ 1 مليون رمز.


يتضمن هذا التصميم ثلاث ترقيات: آلية الانتباه الهجينة (الانتباه المضغوط النادر CSA + الانتباه المضغوط بشدة HCA) التي تقلل بشكل كبير من تكاليف السياق الطويل، حيث تبلغ FLOPs لاستدراك وحدة واحدة في V4-Pro في سيناريو سياق 1M فقط 27% من V3.2، وتشغل ذاكرة KV Cache فقط 10% من V3.2؛


يحل الاتصال الفائق المقيّد بالتنوع mHC محل الاتصالات المتبقيّة التقليدية، لتعزيز استقرار انتقال الإشارات عبر الطبقات؛ ويتم استخدام مُحسّن Muon لتسريع التقارب أثناء التدريب. يتجاوز حجم بيانات التدريب المسبق لهذا النموذج 32 تيرابايت من الرموز.


يتم تقسيم التدريب بعد التدريب الأولي إلى مرحلتين: أولاً، يتم تدريب نماذج الخبراء في كل مجال من خلال SFT وGRPO reinforcement learning، ثم يتم دمجها بشكل موحد في النموذج النهائي من خلال التبخير المباشر.


يُدّعي V4-Pro-Max أنه أقوى نموذج مفتوح المصدر حاليًا، مع تحقيق مستويات رائدة في معايير الترميز، وتقليل الفجوة بشكل ملحوظ مع النماذج الرائدة المغلقة في المهام الاستدلالية ومهام الوكلاء؛


يُظهر V4-Flash-Max أداءً استدلالياً يقارب Pro بعد الحصول على ميزانية تفكير كافية، لكنه محدود من حيث حجم المعلمات في المهام المتعلقة بالمعرفة البحتة والوكيلات المعقدة. تُخزن أوزان النموذج بدقة مختلطة FP4+FP8.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.