إطلاق نموذج DeepSeek V4 مفتوح المصدر مع 1.6 تريليون معلمة وترخيص MIT

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
انكسرت الأخبار على السلسلة في 24 أبريل (UTC+8) مع إطلاق DeepSeek النسخة التجريبية من سلسلة نماذجها مفتوحة المصدر V4 بموجب ترخيص MIT. تتميز نماذج V4-Pro وV4-Flash MoE بـ 1.6 تريليون و284 مليار معلمة على التوالي، مع دعم سياق يصل إلى 1 مليون رمز. وتقلل V4-Pro من عمليات FLOPs للاستنتاج بنسبة 73% وذاكرة KV cache بنسبة 90% مقارنة بـ V3.2. وهي متاحة كأوزان على Hugging Face وModelScope. قد تستفيد عمليات إدراج رموز جديدة من الكفاءة المحسنة والوصول المفتوح.

أخبار ME، في 24 أبريل (UTC+8)، وفقًا لمراقبة Beating، تم إصدار الإصدار التجريبي المفتوح المصدر DeepSeek V4 بموجب ترخيص MIT، وقد تم رفع الأوزان على Hugging Face وModelScope. يشمل السلسلة نموذجين MoE: V4-Pro بإجمالي 1.6 تريليون معلمة، مع تفعيل 49 مليار معلمة لكل رمز؛ وV4-Flash بإجمالي 284 مليار معلمة (2840 مليار)، مع تفعيل 13 مليار معلمة (130 مليار). كلا النموذجين يدعمان سياقًا يصل إلى 1 مليون رمز. تضمن البنية ثلاث ترقيات: آلية الانتباه المختلطة (الانتباه النادر المضغوط CSA + الانتباه المضغوط بشدة HCA) التي خفّضت بشكل كبير تكاليف السياق الطويل، حيث بلغت FLOPs لكل رمز في V4-Pro تحت سياق 1 مليون رمز فقط 27% من V3.2، وشغل ذاكرة KV (الذاكرة المستخدمة لتخزين المعلومات التاريخية أثناء الاستدلال) كانت فقط 10% من V3.2؛ استبدال روابط التماثل التقليدية برابط فائق محدود على متعدد الأشكال mHC لتعزيز استقرار انتقال الإشارات عبر الطبقات؛ واستخدام مُحسّن Muon في التدريب لتسريع التقارب. بيانات التدريب المسبق تتجاوز 32 تريليون رمز. يتم تقسيم التدريب بعد التدريب إلى مرحلتين: أولاً، تدريب خبراء المجالات المختلفة باستخدام SFT وGRPO، ثم دمجها جميعًا في نموذج واحد باستخدام التقطيع المباشر. يدّعي V4-Pro-Max (وضع أقصى قوة استدلال) أنه أقوى نموذج مفتوح المصدر حاليًا، حيث حقق أداءً رائدًا في معايير البرمجة، وقلص الفجوة بشكل ملحوظ مع النماذج المغلقة الرائدة في مهام الاستدلال والوكيل. يقترب V4-Flash-Max من أداء Pro في الاستدلال عند توفير ميزانية تفكير كافية، لكنه يواجه قيودًا في مهام المعرفة البحتة والوكيل المعقدة بسبب حجم المعلمات. يتم تخزين الأوزان بدقة مختلطة FP4+FP8. (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.