MiniMax M3 открыт с нативной поддержкой мультимодальности и длиной контекста 1M

MarsBit

Время выхода: 06/12/2026 15:25:01

Сводка

MiniMax открыла свой нативный мультимодальный MoE-модель M3 на Hugging Face, которая имеет 428 миллиардов параметров и контекстную длину в 1 миллион токенов. Модель поддерживает текстовые, изображения и видео данные с нативной семантической фьюзией. Доступна квантованная версия MXFP8, совместимая с SGLang, vLLM и Transformers. Интерес к инструментам для крупных моделей остается высоким. M3 использует открытый ядро MiniMax Sparse Attention (MSA), которое ускоряет предзаполнение и декодирование. Настроение на рынке, отраженное в индексе страха и жадности, демонстрирует растущую уверенность в инфраструктуре ИИ.

Согласно данным Beating Monitoring, китайская компания-разработчик крупных языковых моделей MiniMax официально открыла исходный код весов нативной многомодальной модели с экспертом-смешанным архитектурным решением (MoE) MiniMax M3 на Hugging Face. Общее количество параметров MiniMax M3 составляет 428 миллиардов, при активации одного токена задействуется 23 миллиарда параметров, а модель нативно поддерживает сверхдлинный контекст до 1 миллиона токенов. Для снижения потребления видеопамяти при развертывании команда разработчиков одновременно выпустила квантованную версию MXFP8, совместимую с основными фреймворками вывода, такими как SGLang, vLLM и Transformers. В многомодальной архитектуре MiniMax M3 текст, изображения и видео обучаются совместно на этапе предварительного обучения для достижения нативного семантического слияния, а не путем пост-обучения для выравнивания модальностей. В плане работы модель предлагает два режима вывода: режим Thinking (мышление), предназначенный для сложной логики и оркестрации инструментов, и режим Non-thinking (немышление), оптимизированный для диалогов с низкой задержкой и генерации кода. Основой для поддержки сверхдлинного контекста в 1 миллион токенов является одновременно открытый легковесный ядро внимания MiniMax Sparse Attention (MSA). Согласно официальным данным, MSA использует механизм группированного запроса внимания (GQA) с блочным извлечением. При тестировании на сверхдлинном контексте в 1 миллион токенов оптимизированные для архитектуры NVIDIA Blackwell (SM100) операторы MSA демонстрируют более чем в 9 раз более быстрое предзаполнение и в 15 раз более быстрое декодирование по сравнению с традиционным полным механизмом внимания, значительно снижая при этом вычислительные затраты.

Источник:Показать оригинал

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.