Berdasarkan pemantauan Beating, produsen model besar domestik MiniMax secara resmi membuka sumber kode bobot model multimodal Mixture-of-Experts (MoE) asli MiniMax M3 di Hugging Face. MiniMax M3 memiliki total parameter sebesar 428 miliar, dengan 23 miliar parameter yang diaktifkan per token, dan secara asli mendukung konteks ultra-panjang hingga 1 juta token. Untuk mengurangi beban memori GPU saat penyebaran, tim pengembang juga merilis versi kuantisasi MXFP8 dan menyesuaikannya dengan kerangka inferensi utama seperti SGLang, vLLM, dan Transformers. Dalam desain multimodal, MiniMax M3 melakukan pelatihan bersama teks, gambar, dan video sejak tahap pelatihan awal untuk mencapai integrasi semantik asli, bukan melalui penyelarasan multimodal setelah pelatihan. Dalam mekanisme operasional, model ini menyediakan dua mode inferensi: mode Thinking (pemikiran) untuk logika kompleks dan orkestrasi alat, serta mode Non-thinking (non-pemikiran) untuk percakapan latensi rendah dan generasi kode. Kernel dasar yang mendukung konteks ultra-panjang satu juta token adalah perpustakaan kernel perhatian ringan yang secara bersamaan dibuka sumbernya, MiniMax Sparse Attention (MSA). Data resmi yang dirilis menunjukkan bahwa MSA menggunakan mekanisme pengambilan blok Grouped Query Attention (GQA); dalam pengujian konteks sangat panjang hingga 1 juta token, operator MSA yang dioptimalkan untuk arsitektur NVIDIA Blackwell (SM100) mampu mencapai percepatan pra-isian lebih dari 9 kali dan percepatan decoding 15 kali dibandingkan mekanisme perhatian penuh tradisional, sekaligus secara signifikan mengurangi biaya inferensi.
MiniMax M3 Dibuka Sumbernya dengan Dukungan Multimodal Asli dan Panjang Konteks 1M
MarsBitBagikan
MiniMax telah membuka sumber kode model MoE multimodal aslinya, M3, di Hugging Face, dengan 428 miliar parameter dan panjang konteks 1 juta token. Model ini mendukung data teks, gambar, dan video dengan fusi semantik asli. Versi kuantisasi MXFP8 tersedia, kompatibel dengan SGLang, vLLM, dan Transformers. Ketertarikan terhadap alat model besar tetap tinggi. M3 menggunakan kernel MiniMax Sparse Attention (MSA) yang telah dibuka sumber kodernya, yang mempercepat prefilling dan decoding. Sentimen pasar, seperti yang tercermin dalam indeks fear and greed, menunjukkan peningkatan kepercayaan terhadap infrastruktur AI.
Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.