MiniMax Menggoda Model AI M3 Dengan Kelajuan Penerjemahan 15.6x Lebih Cepat

MiniMax, makmal AI berpangkalan di Shanghai yang disokong oleh Tencent, Alibaba, dan miHoYo, baru sahaja mengeluarkan laporan teknikal mengenai siri model M2-nya. Di dalamnya terdapat petunjuk mengenai model M3 generasi seterusnya, yang menurut syarikat tersebut mencapai kelajuan dekod 15.6x lebih pantas dan kelajuan prefill 9.7x lebih pantas berbanding M2 apabila memproses konteks 1M-token.

Apa yang sebenarnya dibina oleh MiniMax

Rahsia di sebalik teaser M3 adalah sesuatu yang MiniMax panggil MiniMax Sparse Attention, atau MSA. Ia dibina berdasarkan teknik yang dipanggil pemilihan blok dinamik yang dipandu GQA. Alih-alih membolehkan model memperhatikan setiap maklumat dalam tetingkap konteks yang besar, MSA memilih dengan bijak blok-blok data yang benar-benar penting untuk setiap soalan tertentu. Hasilnya ialah penggunaan komputasi yang jauh lebih rendah dengan kualiti output yang hampir sama.

MiniMax menyatakan bahawa model M3 mengekalkan kualiti output yang sebanding dengan M2 walaupun peningkatan kelajuan yang besar ini.

Laporan teknikal itu sendiri merangkumi inovasi kejuruteraan di seluruh jajaran M2: M2, M2.5, dan M2.7.

Perlu diperhatikan: tiada maklumat yang disahkan mengenai bilangan parameter, butiran lesen, atau jadual pelancaran untuk M3 telah diberikan sejauh ini.

Jejak MiniMax yang semakin membesar

Ditubuhkan pada awal 2022, MiniMax disenaraikan di Bursa Saham Hong Kong pada Januari 2026. Penyokongnya, Tencent, Alibaba, dan miHoYo (studio di sebalik Genshin Impact), mewakili pelbagai kalangan elit teknologi dan permainan China.

Selain teks dan kod, MiniMax mengendalikan platform Hailuo untuk penghasilan video. Hailuo 2.3, iterasi terkini, telah memproses miliaran hasil menurut syarikat.

Mengapa pelabur kripto dan AI perlu memperhatikan

Rangkaian inferens terpusat sentiasa dihambat oleh latensi dan kos. Jika kecekapan MSA menghasilkan pengurangan jejak sumber setiap permintaan, pengendali nod boleh melayani lebih banyak permintaan tanpa meningkatkan peralatan mereka.

Agen AI berasaskan kripto yang memantau data pada rantai, melaksanakan perdagangan, atau menganalisis kontrak pintar secara masa nyata juga dibatasi oleh kelajuan model asas mereka dalam memproses maklumat. Sebuah model yang menangani konteks 1M-token pada kelajuan hampir 16 kali lebih pantas daripada sebelumnya membuka peluang penggunaan yang sebelumnya tidak praktikal.

Tiada integrasi langsung antara teknologi MiniMax dan sebarang platform blok rantai atau token digital yang telah disahkan. Hubungan antara model AI yang lebih pantas dan aplikasi kripto tetap merupakan kesimpulan logik, bukan pengumuman produk.

Bagi pelabur di ruang AI terdesentralisasi, metrik utama yang perlu dipantau bukanlah tarikh pelancaran M3. Ia ialah sama ada arsitektur MSA dibuka sumber bersama dengan berat model. Jika MiniMax mengikuti corak lalunya dalam perlesenan yang longgar, setiap projek inferens terdesentralisasi di seluruh dunia akan mendapat peningkatan percuma kepada panduan kecekapan mereka. Jika syarikat mengekalkan MSA sebagai milik, keuntungan kompetitif akan kekal terpusat di Shanghai.