MiniMax M3 Dibuka Sumbernya dengan Sokongan Multimodal Asli dan Panjang Konteks 1M

MarsBit

Masa Siaran: 06/12/2026 15:25:01

Kongsi

Ringkasan

MiniMax telah membuka sumber model multimodal MoE asalnya, M3, di Hugging Face, dengan 428 bilion parameter dan panjang konteks 1 juta token. Model ini menyokong data teks, gambar, dan video dengan fusi semantik asli. Versi kuantisasi MXFP8 tersedia, kompatibel dengan SGLang, vLLM, dan Transformers. Minat terbuka dalam alat model besar tetap tinggi. M3 menggunakan kernel MiniMax Sparse Attention (MSA) yang dibuka sumbernya, yang mempercepat prefilling dan decoding. Sentimen pasaran, seperti yang dicerminkan dalam indeks takut dan serakah, menunjukkan keyakinan yang semakin meningkat terhadap infrastruktur AI.

Berdasarkan pemantauan Beating, pengeluar model besar tempatan MiniMax secara rasmi membuka sumber berat model MoE (Mixture of Experts) multimodal asli, MiniMax M3, di Hugging Face. Jumlah parameter MiniMax M3 ialah 428 bilion, dengan 23 bilion parameter yang diaktifkan setiap token, dan menyokong konteks super panjang hingga 1 juta secara asli. Untuk mengurangkan beban memori GPU dalam pelaksanaan, pasukan pembangun juga menerbitkan versi kuantisasi MXFP8 dan menyesuaikannya dengan kerangka inferens utama seperti SGLang, vLLM, dan Transformers. Dalam reka bentuk multimodal, MiniMax M3 menjalankan latihan bersama teks, gambar, dan video semasa peringkat pra-latihan untuk mencapai integrasi semantik asli, bukan melalui penyesuaian multimodal selepas latihan. Dari segi mekanisme operasi, model ini menyediakan dua mod inferens: mod Thinking (berfikir) untuk logik kompleks dan pengaturan alat, serta mod Non-thinking (tidak berfikir) untuk dialog latensi rendah dan penghasilan kod. Inti bawah yang menyokong konteks super panjang sebanyak satu juta ialah pustaka inti perhatian ringan yang dibuka secara bersamaan, MiniMax Sparse Attention (MSA). Data rasmi menunjukkan bahawa MSA menggunakan mekanisme pengambilan blok Grouped Query Attention (GQA); dalam ujian konteks sangat panjang 1 juta token, operator MSA yang dioptimaskan untuk arsitektur NVIDIA Blackwell (SM100) mampu mencapai percepatan pra-isian lebih daripada 9 kali dan percepatan dekod 15 kali berbanding mekanisme perhatian penuh tradisional, sambil secara ketara mengurangkan kos inferens.

Sumber:Tunjukkan artikel asal

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.