MiniMax Melancarkan Kaedah MSA Sparse Attention dan Model MiniMax-M3

iconKuCoinFlash
Kongsi
AI summary iconRingkasan
ME AI Mesej, MiniMax melancarkan MSA (MiniMax Sparse Attention), satu kaedah perhatian jarang yang dibina di atas Grouped Query Attention. Ia memecahkan perhatian kepada cabang indeks dan cabang utama: cabang indeks memilih 16 blok token (anggaran tetap 2048 token kunci-nilai) pada peringkat blok (128 token secara lalai) untuk setiap kumpulan GQA, manakala cabang utama hanya menjalankan perhatian softmax tepat pada blok-blok ini. MSA dilatih pada model MoE 109B parameter, dengan kernel inferens untuk GPU NVIDIA SM100 `fmha_sm100` (lesen MIT, menyokong BF16/FP8/NVFP4/FP4) dibuka sumber, serta model pengeluaran MiniMax-M3 dikeluarkan. MSA-PT mencapai 67.2, 77.7, 64.0, 84.2, 77.5 masing-masing pada MMLU, GSM8K, HumanEval, RULER-8K, RULER-32K, sepadan dengan garis dasar perhatian penuh. Dalam konteks 128K, pilihan Top-k bebas exp-nya 5.1 kali lebih pantas berbanding `torch.topk`. (Sumber: AiHot)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.