MiniMax تطلق طريقة MSA للانتباه النادر ونموذج MiniMax-M3
KuCoinFlashمشاركة
كشفت أخبار السلسلة أن MiniMax كشفت عن MSA (MiniMax Sparse Attention)، وهي طريقة انتباه نادرة مبنية على Grouped Query Attention. تقسم الطريقة الانتباه إلى فرع مؤشر وفرع رئيسي، حيث يختار فرع المؤشر 16 كتلة رموز لكل مجموعة GQA، بينما يقوم الفرع الرئيسي بتنفيذ انتباه softmax دقيق على تلك الكتل. تم تدريب MSA على نموذج MoE بـ 109 مليار معلمة، وفتحت MiniMax مصدر نواة الاستنتاج `fmha_sm100` لأجهزة NVIDIA SM100 بموجب ترخيص MIT. كما أطلقت الشركة نموذج الإنتاج MiniMax-M3، الذي يطابق خطوط الأساس ذات الانتباه الكامل عبر عدة معايير. قد تستفيد قوائم الرموز الجديدة من هذه التطورات في كفاءة النموذج وأدائه.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.