MiniMax M3 ay inilabas bilang open-source kasama ang native na multimodal na suporta at 1M na haba ng konteksto

MarsBit

Oras ng Release: 06/12/2026 15:25:01

I-share

Summary

Open-sourced ni MiniMax ang kanilang native na multimodal MoE model na M3 sa Hugging Face, na may 428 bilyong parameter at 1 milyong token na context length. Suporta ng model ang text, image, at video data na may native semantic fusion. Available ang MXFP8 quantized version, na compatible sa SGLang, vLLM, at Transformers. Mataas pa rin ang open interest sa mga tool para sa malalaking model. Gumagamit ang M3 ng open-sourced na MiniMax Sparse Attention (MSA) kernel, na nagpapabilis sa prefilling at decoding. Ang market sentiment, bilang ipinapakita sa fear and greed index, ay nagpapakita ng paglalago sa tiwala sa AI infrastructure.

Ayon sa pagmamasid ng Beating, ang lokal na tagapag-develop ng malalaking modelo, ang MiniMax, ay nag-open source na ang mga timbang ng orihinal na native multimodal Mixture-of-Experts (MoE) na modelo, ang MiniMax M3, sa Hugging Face. Ang kabuuang bilang ng parameter ng MiniMax M3 ay 428 bilyon, na may 23 bilyon na parameter na aktibado bawat token, at may native suporta sa 1 milyong mahabang konteksto. Upang bawasan ang memorya ng GPU sa pag-deploy, ang team ng pag-unlad ay naglabas nang parehong bersyon na MXFP8 na quantized, at itinanggap ang mga pangunahing inference framework tulad ng SGLang, vLLM, at Transformers. Sa disenyo ng multimodal, ang MiniMax M3 ay nagtratrabaho sa joint training ng teksto, imahe, at video sa panahon ng pre-training upang makamit ang native semantic fusion, hindi sa post-training alignment. Sa mekanismo ng pagpapatakbo, ang modelo ay nag-aalok ng dalawang mode ng inference: ang Thinking (pag-iisip) mode para sa kompleks na lohika at tool orchestration, at ang Non-thinking (hindi pag-iisip) mode para sa mabilis na pag-uusap at code generation. Ang ilalim na kernel na sumusuporta sa 1 milyong mahabang konteksto ay ang light-weight attention kernel library na MiniMax Sparse Attention (MSA), na nag-open source nang sabay. Ayon sa opisyal na datos, ang MSA ay gumagamit ng group query attention (GQA) at chunked retrieval mechanism; sa mga pagsusulit na may 1 milyong token, ang MSA operator na optimal para sa NVIDIA Blackwell (SM100) architecture ay nakakamit ng higit sa 9 beses na acceleration sa pre-filling at 15 beses na pagpapabilis sa decoding kumpara sa tradisyonal na full attention mechanism, habang malinaw na binebawasan ang inference overhead.

Source:Ipakita ang original

Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito. Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.