MiniMax تطلق طريقة MSA للانتباه النادر ونموذج MiniMax-M3

iconKuCoinFlash
مشاركة
AI summary iconملخص
ME AI رسالة، أطلقت MiniMax MSA (MiniMax Sparse Attention)، وهي طريقة للانتباه النادر تستند إلى Grouped Query Attention. تقوم بتفكيك الانتباه إلى فرع مؤشر وفرع رئيسي: يختار فرع المؤشر، بحجم كتلة (128 رمز افتراضيًا)، 16 كتلة من الرموز لكل مجموعة GQA (ميزانية ثابتة قدرها 2048 رمز مفتاح/قيمة)، بينما ينفذ الفرع الرئيسي انتباهًا دقيقًا بـ softmax فقط على هذه الكتل. تم تدريب MSA على نموذج MoE بـ 109 مليار معلمة، وتم فتح مصدر نواة الاستدلال الخاصة بـ NVIDIA SM100 `fmha_sm100` (ترخيص MIT، تدعم BF16/FP8/NVFP4/FP4)، كما تم إصدار النموذج الإنتاجي MiniMax-M3. حققت MSA-PT درجات 67.2 و77.7 و64.0 و84.2 و77.5 على MMLU وGSM8K وHumanEval وRULER-8K وRULER-32K على التوالي، مساويةً للخط الأساسي للانتباه الكامل. في سياق 128K، فإن اختيار Top-k خالٍ من التكلفة الحسابية أسرع بـ 5.1 مرة مقارنة بـ `torch.topk`. (المصدر: AiHot)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.