MiniMax Meluncurkan Metode MSA Sparse Attention dan Model MiniMax-M3

iconKuCoinFlash
Bagikan
AI summary iconRingkasan
ME AI Berita, MiniMax merilis MSA (MiniMax Sparse Attention), sebuah metode perhatian jarang yang dibangun di atas Grouped Query Attention. Metode ini membagi perhatian menjadi cabang indeks dan cabang utama: cabang indeks memilih 16 blok token (anggaran tetap 2048 token kunci-nilai) dengan granularitas blok (default 128 token) untuk setiap grup GQA, sementara cabang utama hanya melakukan perhatian softmax akurat pada blok-blok tersebut. MSA dilatih pada model MoE 109B parameter, menghadirkan kernel inferensi terbuka untuk GPU NVIDIA SM100 `fmha_sm100` (lisensi MIT, mendukung BF16/FP8/NVFP4/FP4), serta merilis model produksi MiniMax-M3. MSA-PT mencapai 67.2, 77.7, 64.0, 84.2, dan 77.5 pada MMLU, GSM8K, HumanEval, RULER-8K, dan RULER-32K, sebanding dengan baseline perhatian penuh. Dalam konteks 128K, pemilihan Top-k tanpa exp-nya 5,1 kali lebih cepat daripada `torch.topk`. (Sumber: AiHot)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.