MiniMax запускає метод MSA Sparse Attention та модель MiniMax-M3

iconKuCoinFlash
Поділитися
AI summary iconКороткий зміст
ME AI Новина: MiniMax випустила MSA (MiniMax Sparse Attention) — метод розрідженого уваги, побудований на основі Grouped Query Attention. Він розбиває увагу на індексний та основний гілки: індексна гілка вибирає 16 блоків токенів (з фіксованим бюджетом 2048 ключових/значення токенів) на рівні блоків (за замовчуванням 128 токенів) для кожної групи GQA, а основна гілка виконує точну softmax-увагу лише на цих блоках. MSA навчалася на моделі MoE з 109 млрд параметрів, відкрито код інференс-ядра для NVIDIA SM100 GPU `fmha_sm100` (ліцензія MIT, підтримка BF16/FP8/NVFP4/FP4), а також випущена продукційна модель MiniMax-M3. MSA-PT показала результати 67.2, 77.7, 64.0, 84.2, 77.5 на MMLU, GSM8K, HumanEval, RULER-8K, RULER-32K відповідно — на рівні повної уваги. При контексті 128K її вибір Top-k без експоненти швидший за `torch.topk` у 5.1 рази. (джерело: AiHot)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.