تم إصدار سلسلة DeepSeek V4 مع 1.6 تريليون معلمة وترخيص MIT

رسالة ChainThink، في 24 أبريل، وفقًا للمعلومات الرسمية ذات الصلة، تم إصدار الإصدار التجريبي لسلسلة DeepSeek V4 مفتوح المصدر بموجب ترخيص MIT، وقد تم رفع أوزان النموذج على Hugging Face وModelScope.

يتضمن هذا السلسلة نموذجين MoE، حيث يبلغ إجمالي معلمات V4-Pro 1.6 تريليون معلمة، مع تفعيل 49 مليار معلمة لكل رمز؛

V4-Flash إجمالي المعلمات 284 مليار، مع تفعيل 13 مليار معلمة لكل رمز، وكلا النسختين تدعمان سياقًا بـ 1 مليون رمز.

يتضمن هذا التصميم ثلاث ترقيات: آلية الانتباه الهجينة (الانتباه المضغوط النادر CSA + الانتباه المضغوط بشدة HCA) التي تقلل بشكل كبير من تكاليف السياق الطويل، حيث تبلغ FLOPs لاستدراك وحدة واحدة في V4-Pro في سيناريو سياق 1M فقط 27% من V3.2، وتشغل ذاكرة KV Cache فقط 10% من V3.2؛

يحل الاتصال الفائق المقيّد بالتنوع mHC محل الاتصالات المتبقيّة التقليدية، لتعزيز استقرار انتقال الإشارات عبر الطبقات؛ ويتم استخدام مُحسّن Muon لتسريع التقارب أثناء التدريب. يتجاوز حجم بيانات التدريب المسبق لهذا النموذج 32 تيرابايت من الرموز.

يتم تقسيم التدريب بعد التدريب الأولي إلى مرحلتين: أولاً، يتم تدريب نماذج الخبراء في كل مجال من خلال SFT وGRPO reinforcement learning، ثم يتم دمجها بشكل موحد في النموذج النهائي من خلال التبخير المباشر.

يُدّعي V4-Pro-Max أنه أقوى نموذج مفتوح المصدر حاليًا، مع تحقيق مستويات رائدة في معايير الترميز، وتقليل الفجوة بشكل ملحوظ مع النماذج الرائدة المغلقة في المهام الاستدلالية ومهام الوكلاء؛

يُظهر V4-Flash-Max أداءً استدلالياً يقارب Pro بعد الحصول على ميزانية تفكير كافية، لكنه محدود من حيث حجم المعلمات في المهام المتعلقة بالمعرفة البحتة والوكيلات المعقدة. تُخزن أوزان النموذج بدقة مختلطة FP4+FP8.