MiniMax M3 مفتوح المصدر مع دعم متعدد الوسائط الأصلي وطول سياق 1M

icon MarsBit
مشاركة
AI summary iconملخص

وفقًا لمراقبة Beating، أطلقت الشركة الصينية للنماذج الكبيرة MiniMax رسميًا أوزان نموذج MiniMax M3 متعدد الوسائط المختلط الخبير (MoE) الأصلي على Hugging Face. يبلغ إجمالي عدد معلمات MiniMax M3 428 مليارًا، مع تفعيل 23 مليار معلمة لكل رمز، ويدعم أصليًا سياقًا فائق الطول يصل إلى مليون رمز. لخفض تكاليف ذاكرة GPU عند النشر، أصدر فريق التطوير أيضًا إصدارًا مكمّنًا بـ MXFP8، مع تكييفه مع أطر الاستنتاج الرئيسية مثل SGLang وvLLM وTransformers. من حيث التصميم متعدد الوسائط، يُدرب MiniMax M3 في مرحلة التدريب المبدئي النص والصورة والفيديو معًا لتحقيق دمج دلالي أصلي، وليس من خلال محاذاة متعددة الوسائط بعد التدريب. من حيث آلية التشغيل، يوفر النموذج وضعين للاستنتاج: وضع "Thinking" (التفكير) المخصص للمنطق المعقد وترتيب الأدوات، ووضع "Non-thinking" (غير التفكير) المخصص للدردشة منخفضة التأخير وتوليد الكود. النواة الأساسية التي تدعم السياق الفائق الطول بمليون رمز هي مكتبة الانتباه الخفيفة المفتوحة المصدر MiniMax Sparse Attention (MSA). ووفقًا للبيانات الرسمية، فإن MSA تستخدم آلية استرجاع مجمعة للانتباه بأسئلة مجمعة (GQA)، وفي اختبارات السياق الطويل جدًا بمليون رمز، فإن مشغلات MSA المُحسّنة لهيكل NVIDIA Blackwell (SM100) تحقق تسريعًا يزيد عن 9 مرات في التمهيد المسبق و15 مرة في التحليل مقارنة بآلية الانتباه الكاملة التقليدية، مع خفض ملحوظ في تكاليف الاستنتاج.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.