MiniMax, MSA Seyrek Dikkat Yöntemini ve MiniMax-M3 Modelini Başlatıyor

iconKuCoinFlash
Paylaş
AI summary iconÖzet
ME AI Haberi, MiniMax, Grouped Query Attention üzerine kurulan bir seyrek dikkat yöntemi olan MSA (MiniMax Sparse Attention)’yı yayınladı. Bu yöntem, dikkati indeks dalı ve ana dal olarak böler: indeks dalı, her GQA grubu için blok düzeyinde (varsayılan olarak 128 token) 16 token bloğu seçer (sabit bütçe: 2048 anahtar-değer token); ana dal ise yalnızca bu bloklar üzerinde tam softmax dikkatini uygular. MSA, 109 milyar parametreli MoE modeli üzerinde eğitildi ve NVIDIA SM100 GPU’lar için `fmha_sm100` (MIT lisansı, BF16/FP8/NVFP4/FP4 desteği) adlı seyrek dikkat inference çekirdeği açık kaynak olarak paylaşıldı. Ayrıca üretim modeli MiniMax-M3 de duyuruldu. MSA-PT, MMLU, GSM8K, HumanEval, RULER-8K ve RULER-32K üzerinde sırasıyla 67.2, 77.7, 64.0, 84.2 ve 77.5 puan elde etti ve tam dikkat temelini aştı. 128K bağlamda, exp-free Top-k seçimi `torch.topk`’den 5,1 kat daha hızlıdır. (Kaynak: AiHot)
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.