Ipinaglunsad ni MiniMax ang MSA Sparse Attention Method at ang MiniMax-M3 Model

iconKuCoinFlash
I-share
AI summary iconSummary
ME AI mensahe, inilabas ni MiniMax ang MSA (MiniMax Sparse Attention), isang sparse attention method na nakabatay sa Grouped Query Attention. Ibinabahagi nito ang attention sa index branch at main branch: ang index branch ay nagpipili ng 16 token blocks bawat GQA group sa block granularity (default na 128 token), na may fixed budget na 2048 key-value tokens; samantala, ang main branch ay nagpapatakbo lamang ng eksaktong softmax attention sa mga block na ito. Tinuruan ang MSA sa isang 109B parameter MoE model, at inilabas nila ang open-source inference kernel para sa NVIDIA SM100 GPU na `fmha_sm100` (MIT license, sumusuporta sa BF16/FP8/NVFP4/FP4), kasama ang production model na MiniMax-M3. Ang MSA-PT ay nakamit ang 67.2, 77.7, 64.0, 84.2, at 77.5 sa MMLU, GSM8K, HumanEval, RULER-8K, at RULER-32K, na pareho sa full attention baseline. Sa 128K context, mas mabilis ang exp-free Top-k selection nito ng 5.1 beses kaysa sa `torch.topk`. (Source: AiHot)
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.