MiniMax Mengungkap Model M3 dengan Kecepatan Dekoding 15,6x Lebih Cepat

MiniMax, laboratorium AI berbasis di Shanghai yang didukung oleh Tencent, Alibaba, dan miHoYo, baru saja merilis laporan teknis mengenai seri model M2. Di dalamnya terdapat petunjuk mengenai model generasi berikutnya, M3, yang menurut perusahaan mencapai kecepatan decoding 15,6 kali lebih cepat dan kecepatan prefill 9,7 kali lebih cepat dibandingkan M2 saat memproses konteks 1 juta token.

Apa yang sebenarnya dibangun oleh MiniMax

Rahasia di balik teaser M3 adalah sesuatu yang disebut MiniMax Sparse Attention, atau MSA, oleh MiniMax. Ini dibangun berdasarkan teknik yang disebut GQA-driven dynamic block selection. Alih-alih membuat model memperhatikan setiap informasi dalam jendela konteks yang besar, MSA secara cerdas memilih blok-blok data yang benar-benar penting untuk suatu permintaan tertentu. Hasilnya adalah pengurangan komputasi yang drastis dengan kualitas output yang hampir sama.

MiniMax menyatakan bahwa model M3 mempertahankan kualitas output yang sebanding dengan M2 meskipun ada peningkatan kecepatan yang signifikan.

Laporan teknis itu sendiri mencakup inovasi teknik di seluruh jajaran M2: M2, M2.5, dan M2.7.

Perlu dicatat: belum ada informasi mengenai jumlah parameter yang dikonfirmasi, rincian lisensi, atau jadwal rilis untuk M3.

Jejak MiniMax yang terus berkembang

Didirikan pada awal 2022, MiniMax terdaftar di Bursa Saham Hong Kong pada Januari 2026. Pendukungnya, Tencent, Alibaba, dan miHoYo (studio di balik Genshin Impact), mewakili segmen elit teknologi dan gaming Tiongkok.

Di luar teks dan kode, MiniMax mengoperasikan platform Hailuo untuk generasi video. Hailuo 2.3, iterasi terbaru, telah memproses miliaran hasil menurut perusahaan.

Mengapa investor kripto dan AI harus memperhatikan

Jaringan inferensi terdesentralisasi terus-menerus mengalami bottleneck karena latensi dan biaya. Jika peningkatan efisiensi MSA diterjemahkan menjadi jejak sumber daya yang lebih kecil per permintaan, operator node dapat melayani lebih banyak permintaan tanpa meningkatkan perangkat mereka.

Agen AI native crypto yang memantau data on-chain, mengeksekusi perdagangan, atau menganalisis kontrak pintar secara real-time juga dibatasi oleh seberapa cepat model dasarnya dapat memproses informasi. Sebuah model yang menangani konteks 1 juta token dengan kecepatan hampir 16 kali lebih cepat dari sebelumnya membuka kemungkinan penggunaan yang sebelumnya tidak praktis.

Tidak ada integrasi langsung antara teknologi MiniMax dan platform blockchain atau token digital yang telah dikonfirmasi. Keterkaitan antara model AI yang lebih cepat dan aplikasi kripto tetap merupakan kesimpulan logis, bukan pengumuman produk.

Bagi investor di ruang AI terdesentralisasi, metrik utama yang perlu diawasi bukanlah tanggal rilis M3. Tetapi apakah arsitektur MSA akan di-open-source bersamaan dengan bobot model. Jika MiniMax mengikuti pola lisensi permissif yang sudah mapan, setiap proyek inferensi terdesentralisasi di seluruh dunia mendapatkan peningkatan gratis terhadap panduan efisiensi mereka. Jika perusahaan mempertahankan MSA sebagai milik pribadi, keunggulan kompetitif tetap terpusat di Shanghai.