إطلاق نموذج DeepSeek V4 مفتوح المصدر مع 1.6 تريليون معلمة وترخيص MIT

أخبار ME، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، تم إصدار الإصدار التجريبي المفتوح المصدر DeepSeek V4 بموجب ترخيص MIT، وقد تم رفع الأوزان على Hugging Face وModelScope. يشمل السلسلة نموذجين MoE: V4-Pro بإجمالي 1.6 تريليون معلمة، مع تفعيل 49 مليار معلمة لكل رمز؛ وV4-Flash بإجمالي 284 مليار معلمة (2840 مليار)، مع تفعيل 13 مليار معلمة (130 مليار). كلا النموذجين يدعمان سياقًا يصل إلى 1 مليون رمز. تضمن البنية ثلاث ترقيات: آلية الانتباه المختلطة (الانتباه النادر المضغوط CSA + الانتباه المضغوط بشدة HCA) التي خفّضت بشكل كبير تكاليف السياق الطويل، حيث بلغت FLOPs لكل رمز في V4-Pro تحت سياق 1 مليون رمز فقط 27% من V3.2، وشغل ذاكرة KV (الذاكرة المستخدمة لتخزين المعلومات التاريخية أثناء الاستدلال) كانت فقط 10% من V3.2؛ استبدال روابط التماثل التقليدية برابط فائق محدود على متعدد الأشكال mHC لتعزيز استقرار انتقال الإشارات عبر الطبقات؛ واستخدام مُحسّن Muon في التدريب لتسريع التقارب. بيانات التدريب المسبق تتجاوز 32 تريليون رمز. يتم تقسيم التدريب بعد التدريب إلى مرحلتين: أولاً، تدريب خبراء المجالات المختلفة باستخدام SFT وGRPO، ثم دمجها جميعًا في نموذج واحد باستخدام التقطيع المباشر. يدّعي V4-Pro-Max (وضع أقصى قوة استدلال) أنه أقوى نموذج مفتوح المصدر حاليًا، حيث حقق أداءً رائدًا في معايير البرمجة، وقلص الفجوة بشكل ملحوظ مع النماذج المغلقة الرائدة في مهام الاستدلال والوكيل. يقترب V4-Flash-Max من أداء Pro في الاستدلال عند توفير ميزانية تفكير كافية، لكنه يواجه قيودًا في مهام المعرفة البحتة والوكيل المعقدة بسبب حجم المعلمات. يتم تخزين الأوزان بدقة مختلطة FP4+FP8. (المصدر: BlockBeats)