MiniMax meluncurkan model M3 yang menarik perhatian global, CEO Vercel secara terbuka mendukung, tetapi komunitas domestik memperdebatkan penyesuaian harga. Pengembang memverifikasi kemampuan M3 melalui pengujian buta dan nyata, hasilnya menunjukkan kemampuan generasi kode M3 sebanding dengan Claude Opus 4.8, masuk sepuluh besar dalam berbagai uji coba benchmark, menjadikannya model open-source terkuat. Model ini menggunakan arsitektur baru MiniMax Sparse Attention, mengurangi beban komputasi hingga 1/20 pada konteks 1 juta. MiniMax juga meluncurkan fitur Agent Team, yang terdiri dari tiga jenis Agent: Leader, Worker, dan Verifier yang bekerja sama. Bobot model dan laporan teknis lengkap akan dirilis open-source dalam waktu sepuluh hari, memungkinkan pengembang global melakukan pengujian proyek nyata.

Penulis artikel, sumber: Sinar Zhiyuan

Berita Xin Zhi Yuan

[导读 oleh XinZhiYuan]: Tokoh-tokoh Silicon Valley mendukung, tetapi komunitas berdebat sengit. Bisakah MiniMax M3 melewati ujian nyata? Para pengembang global sudah mulai menggunakannya.

Baru-baru ini, baik di dalam maupun luar negeri, semuanya dipenuhi oleh model yang sama.

CEO Vercel, Guillermo Rauch, yang memiliki 5,4 juta pengikut, secara sangat langka secara terbuka mendukung.

Yang ia rekomendasikan adalah model sepenuhnya dari Tiongkok—MiniMax M3.

Namun, M3 yang sama ini juga mendapat banyak kritik, dengan banyak komentar di komunitas domestik yang berubah menjadi kekacauan.

Banyak komentar fokus pada penyesuaian harga Token Plan. Banyak pengguna lama merasa hak mereka berkurang, sehingga protes hebat.

Sedangkan gaya komunitas luar negeri sama sekali berbeda dengan di dalam negeri.

Beberapa pengembang luar negeri menebak parameter arsitektur M3, mekanisme perhatian jarang, dan skala data pelatihan.

Misalnya, pengguna X bernama Rohan mengatakan bahwa melihat harga saja tidak berarti, meskipun biaya juga penting, ia lebih ingin tahu bagaimana model membuat kesalahan dan performanya secara nyata dalam sistem Agent.

Netizen lain lebih langsung, ia berpendapat, "M3 sebagai model open-source sudah sangat luar biasa bisa mengejar Opus dan GPT-5, tetapi sebelum percaya pada promosi ini, saya harus melihatnya gagal secara langsung."

Menanggapi evaluasi eksternal ini, MiniMax merespons dengan cepat, pada hari yang sama merilis skema kompensasi: pengguna lama mempertahankan hak mereka yang sudah ada, sementara pengguna baru mendapatkan tambahan 50% kuota mingguan.

Masalah harga telah teratasi, selanjutnya, masalah paling substansial adalah: Apakah M3 benar-benar kuat, atau hanya ilusi dari "manipulasi peringkat"?

72 jam

Sebuah "pemeriksaan ketat" yang melibatkan pengembang di seluruh dunia

Untuk memverifikasi kinerja sebenarnya dari M3, pengembang Victoria Wu memberikan Prompt yang sama (meminta AI untuk menghasilkan animasi seekor burung pelikan yang mengendarai sepeda) kepada M3, Sonnet 4.6, dan Opus 4.8.

Kemudian, beri label ketiga hasil tersebut sebagai A, B, dan C, dan biarkan netizen menebak secara acak mana yang merupakan M3.

Kolom komentar hampir seragam, "A terlalu mulus, pasti Opus", "M3 seharusnya B atau C".

Hasil telah diumumkan. A adalah M3.

Tidak sendirian, pengembang JAZII juga melakukan serangkaian eksperimen kontrol tingkat blind test.

Dia menggunakan Prompt yang persis sama, meminta model untuk membuat klon Minecraft dari nol menggunakan Three.js dalam HTML, dengan peserta M3 dan Opus 4.8.

Meskipun M3 memakan sedikit lebih banyak waktu, hasil akhir dari kode yang dijalankan oleh JAZII memberikan dua kata: 「Super close」.

Kiri adalah M3, kanan adalah Opus 4.8, apakah Anda menebak dengan benar?

Pengembang China di X, "Praktik Ge minli", mengeksploitasi kemampuan multimodal dan Agentic Coding M3 hingga batasnya, menciptakan game pertarungan gestur "Fanren Xiuxian Zhuan" secara langsung dengan M3.

Dalam proses ini, M3 perlu memahami gestur visual yang kompleks dan menulis kode logika jangka panjang. Saat seluruh proses berjalan lancar, konsumsi token hanya 20% dari Claude Sonnet.

AI evaluator yang terkenal ketat, Thomas Wiegold, juga segera merilis laporan uji coba 3000 kata.

Dia menilai M3: "Ini adalah salah satu model paling menarik yang pernah saya uji tahun ini."

Model Tiongkok terakhir yang membuat Silicon Valley berguncang masih berada enam bulan lalu, pada peluncuran DeepSeek V4.

Dan kali ini, kejutan yang dibawa oleh MiniMax M3 tampak lebih立体.

Masukkan makalah 50 halaman, M3 akan memecahnya sendiri

Hanya melihat orang lain mencoba tidak cukup seru. Kami sendiri mencoba, dan sengaja memilih dua soal yang paling menuntut model.

Pertama, adalah laporan teknis DeepSeek-V3 yang panjangnya 50 halaman. Grafik padat, rumus dan pseudocode saling berbaur, kepadatan informasi maksimal.

Pertama, biarkan M3 merangkai rantai teknis sebab-akibat mengenai 'tumpang tindih komunikasi dan komputasi dasar', untuk melihat apakah ia bisa menjelaskan dengan jelas logika teknis paling inti dalam makalah ini.

M3 memikirkan secara menyeluruh 15 kali, mengeksekusi 19 perintah, dan memanggil 1 alat.

Akhirnya, ia memecah jalur implementasi lengkap strategi penjadwalan DualPipe secara jelas, tanpa putus pada rantai logikanya.

Geser ke atas dan bawah untuk melihat

Berikutnya akan diuji kemampuan multimodal M3.

Unggah sebuah diagram struktur MLA, lalu minta model untuk menemukan mana dari rumus matematis dalam teks utama yang sesuai dengan proses penjadwalan dinamis dan proyeksi.

M3 segera memberikan analisis yang sesuai, tepat sasaran.

Tingkat kesulitan terus ditingkatkan. Jika ada garis penghubung di gambar yang sebenarnya menyembunyikan batasan tersembunyi yang lebih dalam dalam deskripsi teks di tubuh artikel, minta M3 untuk menunjukkan posisi visualnya di gambar dan menjelaskan alasannya.

M3 langsung menambahkan annotasi pada diagram arsitektur MLA dan memberikan uraian rinci dari tiga batasan.

Pembicaraan GTC selama 2 jam, M3 langsung merilis naskah

Soal kedua tingkat kesulitannya ditingkatkan, tidak hanya harus memahami, tetapi juga harus menuliskannya.

Bahan ini adalah pidato utama lengkap selama 1 jam 57 menit dari konferensi GTC NVIDIA, bersama dengan pedoman penulisan, dilemparkan semuanya ke M3.

Satu prompt, setelah menonton video, buat laporan mendalam sepanjang 3.000–40.000 kata sesuai standar.

Menghadapi video asli sebesar 1,15 GB, alat AI biasa kemungkinan besar hanya akan mengeluarkan kesalahan dan keluar.

Namun, dengan dukungan dari MiniMax Code sistem alat, M3 langsung menemukan solusinya—

Menggunakan ffmpeg untuk mengompresi dan memotong, saya menciptakan jalan sendiri yang bisa ditempuh.

Setelah semua 12 bagian habis dimakan, M3 menghasilkan daftar bahan yang menakjubkan.

Timestamp akurat hingga tingkat menit, detail gambar sangat jelas.

Semua tercantum: jaket kulit hitam dengan pola sisik yang dikenakan Lao Huang, close-up selama 15 detik ketika ia mengeluarkan chip N1X dari saku celana dan mengangkatnya di atas kepala, serta ejekan saat membawa mesin asli Vera Rubin ke panggung: “Belakangnya mungkin ada 2000 orang yang sedang buang air besar.”

Bahkan kalimat bahasa Tiongkok tiba-tiba yang keluar dari Lao Huang, “Terlalu banyak hal,” pun tidak dilewatkan.

Yang lebih lagi, M3 juga mengungkapkan tiga poin terpanas menurutnya, masing-masing dengan alasan penilaian pribadinya.

Setelah mengonfirmasi daftar bahan, M3 mulai menulis.

Pembukaan dimulai dengan adegan Lao Huang mengeluarkan sesuatu dari saku celananya, dan berakhir dengan perspektif yang lebih tinggi: "Pemilik rantai pasokan ini sedang berubah dari manusia menjadi Agent."

Draf awal 3500 kata, kumpulkan dalam 40 menit.

Meskipun belum mencapai tingkat publikasi kami, ia menyediakan titik awal dengan kualitas yang cukup tinggi.

Setelah menonton video 2 jam dengan multimodal, konteks panjang memuat seluruh bahan + pedoman penulisan + contoh dalam satu jendela, kemampuan agen bertanggung jawab menyelesaikan apa pun yang dihadapi.

Tiga kemampuan inti M3 benar-benar dieksploitasi hingga batasnya dalam tugas ini; tanpa satu pun di antaranya, tugas ini tidak mungkin dilakukan.

12 laporan kinerja model, M3 membuat sendiri gambaran menyeluruhnya

Soal ketiga ubah arahnya, tidak menguji teks panjang, tapi menguji membaca grafik + terhubung ke internet + mengerjakan teknik.

Setiap model saat dirilis selalu menyertakan gambar perbandingan benchmark, tetapi formatnya beragam, ada tabel, grafik batang, dan grafik radar, serta kriteria data tidak seragam.

Untuk membandingkan secara horizontal, Anda harus menggulir sendiri satu per satu, sel demi sel, sangat menyiksa.

Langsung berikan sepuluh tangkapan layar benchmark dari blog resmi berbagai model dan platform ulasan pihak ketiga ke M3, biarkan ia memahami semua grafik sendiri, menghubungkan internet untuk melengkapi data yang hilang, menyatukan standar, dan membuat layar perbandingan interaktif.

M3 terlebih dahulu mengenali nama model dan skor dari tangkapan layar satu per satu. Untuk grafik dengan format berbeda, lakukan normalisasi sendiri. Data yang hilang dalam tangkapan layar, cari langsung di sumber resmi secara online untuk melengkapi.

Menghasilkan layar interaktif gelap bergaya Bloomberg Terminal.

12 model, 14 benchmark, peringkat komprehensif, perbandingan radar chart, diagram batang tunggal, diagram sebar harga/kinerja, empat modul sekaligus.

Tiga kemampuan, sekaligus dipenuhi

Setelah menyelesaikan tiga pertanyaan tersebut, batas kemampuan M3 sudah jelas. Pertanyaan selanjutnya adalah, apa yang membuatnya bisa melakukannya.

Jawabannya adalah ketiga kemampuan inti ini hadir secara bersamaan: pemrograman tingkat mutakhir, jendela konteks 1M, dan multimodal asli.

Dasarnya adalah arsitektur perhatian baru bernama MiniMax Sparse Attention (MSA).

Ketika mekanisme perhatian tradisional menangani konteks jutaan, beban komputasi meledak secara eksponensial, memori dan daya komputasi GPU akan habis.

MSA mengatasi bottleneck ini dengan cara sparse tingkat blok.

Pada lapisan operator, ia memungkinkan setiap blok data KV dibaca hanya sekali di memori, akses memori sepenuhnya kontinu, tanpa pemindahan berulang.

Efeknya hanya bisa digambarkan dengan kekerasan.

Di bawah skala konteks 1 juta, komputasi per token M3 dipaksa turun hingga 1/20 dari generasi sebelumnya. Akselerasi pre-filling lebih dari 9 kali, akselerasi decoding lebih dari 15 kali.

Di sisi multimodal, ini juga sangat agresif. M3 bukanlah produk gabungan yang melatih teks terlebih dahulu, lalu menambahkan modul visual secara eksternal.

Dari langkah pertama pelatihan, teks, gambar, dan video diberikan secara tercampur. Untuk ini, tim peneliti juga merekonstruksi seluruh saluran data dan langsung memperbesar skala pra-pelatihan hingga level 100T.

Hasilnya, M3 langsung mendapatkan peringkat tertinggi global untuk model open-source di peringkat Indeks Kecerdasan Komprehensif Artificial Analysis, berada di peringkat ketujuh dunia.

Di peringkat GPQA Diamond untuk penalaran ilmiah, M3 mencapai 93,2%, masuk empat besar global, lebih tinggi daripada Claude Opus 4.8 dan Opus 4.7.

Dalam peringkat inferensi konteks panjang, M3 berada di enam besar dengan skor 74,0%, sejajar dengan seri GPT-5.

Di peringkat Agent Tugas Nyata GDPval-AA, M3 dengan skor 1670 berada di peringkat lima dunia, hanya selisih 6 poin dari Sonnet 4.6.

Dimensi evaluasi untuk setiap peringkat berbeda, tetapi posisi M3 selalu berada di kisaran yang sama, tepat di ambang batas kelompok teratas yang bersifat tertutup, dan paling depan di antara model sumber terbuka.

Geser ke kiri dan kanan untuk melihat

Di indeks multimodal pihak ketiga terkenal, Vals Index, M3 juga mencapai peringkat keenam global.

Ini adalah hasil terbaik untuk model open-source di Tiongkok saat ini, sekaligus peringkat tertinggi global untuk model open-source.

Dari perspektif keseluruhan, M3 telah dengan mantap melewati garis Claude Sonnet 4.6.

Meskipun masih belum sekuat Opus 4.7 dan GPT-5.5, jelas bahwa ia telah masuk ke grup kematian.

Satu agen tidak cukup, maka gunakan tim

Masalah berikutnya yang muncul secara alami adalah, model semacam ini dijalankan dengan apa?

Pengujian sebelumnya, M3 menggunakan ffmpeg untuk memotong video dan menghasilkan output dalam 40 menit, dijalankan di MiniMax Code.

Tetapi itu baru satu Agent yang bekerja. Yang paling menarik dari pembaruan ini adalah Agent Team.

Orang yang pernah menggunakan alat pemrograman AI kemungkinan besar pernah mengalami hal ini.

Anda memberikan 7 tugas kepada Agent, tetapi setelah menyelesaikan 3 tugas, ia berhenti dan melaporkan, "Saya telah menyelesaikan 1, 2, dan 3, apakah perlu dilanjutkan?" Atau, saat berjalan, gayanya tiba-tiba berubah—awalnya tampak seperti insinyur yang andal, tetapi kemudian tiba-tiba mulai berbicara tak masuk akal.

Untuk ini, tim agen memisahkan wasit dan peserta.

Leader bertanggung jawab untuk memahami tujuan, membagi tugas, dan mengatur. Worker bertanggung jawab untuk melaksanakan tugas secara spesifik, dengan setiap Worker memiliki alat dan konteks yang berbeda. Verifier bertanggung jawab untuk memeriksa, khususnya berperan sebagai penentang terhadap Worker.

Worker selesai,Verifier mulai mencari kesalahan. Jika ditemukan masalah, pekerjaan dikembalikan untuk diperbaiki. Setelah Verifier selesai memeriksa, Worker menggunakan masukan perbaikan untuk mengerjakan ulang. Siklus adversarial ini tidak bergantung pada penilaian mandiri model untuk menentukan kapan harus berhenti; di tingkat dasar, ada mesin state machine yang mengelolanya.

Hal paling menyenangkan dalam pengalaman nyata adalah, Anda mengirim satu pesan, M3 langsung membalas konfirmasi, sementara beberapa Worker di latar belakang sudah berjalan secara paralel.

Di tengah jalan, Anda menambahkan permintaan baru, "Sambil itu, tolong cek ini," dan Leader langsung merespons, tugas latar belakang terus berjalan.

Sangat seperti rekan kerja yang langsung balas pesan WhatsApp-mu dan sekaligus membantumu bekerja.

Kemampuan model M3 ditambah tim Agent MiniMax Code—satu bertanggung jawab atas pemikiran, satu lagi bertanggung jawab atas pelaksanaan, gabungan keduanya membuka imajinasi tanpa batas.

Setelah badai berlalu, perhatian semua orang akhirnya kembali ke M3 itu sendiri.

Dan langkah selanjutnya yang benar-benar krusial: bobot dan laporan teknis lengkapnya akan di-open source dalam sepuluh hari.

Pada saat itu, pengembang global akan memberinya penilaian berdasarkan proyek nyata.

Follow ASI in seconds

⭐ Suka, bagikan, dan lihat sekaligus ⭐

Nyalakan bintang, tetapkan pemberitahuan cepat dari XinZhiYuan!

Artikel sebelumnya

Ahli memprediksi baru akan tiba akhir tahun, tetapi Claude Mythos sudah keluar dalam 3 jam 6 menit hari ini!

Halaman berikutnya Artikel

Anthropic menyerahkan 95% analisis bisnis internal ke Claude, rahasianya bukan pada model yang lebih kuat

MiniMax M3 Menempati Peringkat Teratas dalam Model Sumber Terbuka, Memicu Perdebatan di Komunitas Tiongkok

Berita Xin Zhi Yuan

[导读 oleh XinZhiYuan]: Tokoh-tokoh Silicon Valley mendukung, tetapi komunitas berdebat sengit. Bisakah MiniMax M3 melewati ujian nyata? Para pengembang global sudah mulai menggunakannya.