Inception Labs Meluncurkan Mercury 2, LLM Diffusi Berkecepatan Tinggi untuk dapp Kripto

Inception Labs minggu ini mengguncang persaingan AI dengan Mercury 2, model bahasa "diffusion" baru yang dipromosikan perusahaan sebagai LLM penalaran tercepat di dunia. Dalam pengujian benchmark dan pelanggan, klaim utama Mercury 2 adalah throughput mentah: sekitar 1.000 token per detik dibandingkan sekitar 89 token/detik untuk Claude Haiku 4.5 Reasoning milik Anthropic dan 71 token/detik untuk GPT-5 Mini milik OpenAI. Hal ini menempatkannya tepat di kelas kecepatan tinggi yang sama yang kemudian dikaitkan Google dengan DiffusionGemma miliknya—selamat datang di apa yang beberapa sebut sebagai era diffusion dari large language models. Apa yang dilakukan berbeda oleh model diffusion: - Bot obrolan tradisional menghasilkan teks satu token sekaligus, memeriksa setiap langkah secara berurutan. Model diffusion justru menginisialisasi blok teks dengan token placeholder berisik dan menyempurnakan blok tersebut dalam beberapa lintasan paralel hingga jawaban akhir muncul—teknik yang diadopsi dari generator gambar seperti Stable Diffusion. - Hasilnya adalah throughput paralel yang jauh lebih tinggi dan "aliran" yang lebih responsif selama sesi panjang: autocompletes instan, iterasi lebih cepat pada kode atau rencana, dan subagent yang dapat menjalankan banyak panggilan utilitas cepat tanpa memperlambat keseluruhan sistem. Benchmark dan perbandingan langsung: - Pada AIME 2026 (berdasarkan soal-soal nyata American Invitational Mathematics Examination, dinilai sebagai persentase soal yang diselesaikan), Mercury 2 mendapat skor 90%. DiffusionGemma milik Google mendapat skor 69,1% pada tes yang sama, sementara Gemma 4 standar (non-diffusion) mendapat skor 88,3%. - Pada GPQA, benchmark sains tingkat PhD, kesenjangan menyempit: Mercury 2 pada 77% vs. DiffusionGemma pada 73,2%. Panduan internal Google tetap merekomendasikan Gemma 4 standar untuk aplikasi yang membutuhkan kualitas tertinggi mutlak, mencatat bahwa DiffusionGemma kalah di semua aspek. Kinerja dunia nyata dan biaya: - Klaim kecepatan Mercury 2 bukan sekadar angka laboratorium. Augment Code, perusahaan agen pengkodean AI, mengganti Claude Opus 4.7 milik Anthropic dengan Mercury 2 pada subagent kompaksi konteks dan melaporkan penurunan latensi 82% serta pengurangan biaya 90%, sambil mempertahankan kualitas output yang sebanding (menurut studi kasus bersama). Asal-usul dan pendanaan: - Pendekatan Inception dibangun di atas penelitian diffusion oleh pendiri Stefano Ermon, seorang profesor Stanford yang ikut menulis karya awal diffusion berbasis skor yang digunakan dalam generasi gambar. Startup ini mengumpulkan putaran pendanaan $50 juta dengan dukungan dari lengan ventura Nvidia serta investor individu Andrew Ng dan Andrej Karpathy. Mercury 2 saat ini tersedia melalui API/cloud—bobot model belum tersedia publik. Peringatan praktis dan arsitektur baru: - LLM diffusion unggul di area yang mengutamakan latensi dan throughput volume tinggi (pengeditan real-time, banyak panggilan utilitas kecil, antarmuka suara, dll.), tetapi tidak selalu cocok untuk tugas penalaran paling sulit di frontier, di mana model autoregresif ukuran besar mungkin masih unggul. - Secara arsitektural, pergeseran besar adalah menuju orkestra subagent khusus (reasoners, summarizers, routers, checkers). Model token-per-token sekuensial membuat banyak panggilan utilitas lambat dan mahal; model diffusion paralel membuat panggilan-panggilan itu cukup murah untuk digunakan secara bebas. - Ekosistem masih mengejar ketertinggalan: runtime lokal, kerangka kerja agent, dan infrastruktur lainnya perlu matang agar model diffusion dapat berjalan mulus di mana saja. Di mana ini penting untuk crypto dan web3: - LLM yang lebih cepat dan lebih murah mengurangi hambatan untuk layanan on-chain dan off-chain yang sensitif terhadap latensi: - alat pengembang real-time untuk pengkodean kontrak pintar dan "vibe coding" yang mengikuti perubahan; - sistem pendukung multi-agent dan bot untuk DAO yang membutuhkan banyak panggilan sub-cepat; - antarmuka suara atau obrolan latensi rendah untuk dompet, dapp, atau operator node on-call; - biaya inferensi lebih murah untuk pipeline preprocessing oracle, pemantauan, dan alerting. - Dalam skala besar, throughput lebih tinggi di GPU komoditas dapat diterjemahkan menjadi penghematan biaya dan energi yang berarti bagi proyek yang menjalankan banyak panggilan AI. Kesimpulan Mercury 2 mendorong LLM diffusion ke kuadran "cepat dan bagus", memberikan peningkatan dramatis dalam latensi dan biaya untuk tugas-tugas berbasis throughput sambil tetap mempertahankan kualitas kompetitif. Model ini tidak akan menggantikan setiap kelas model, tetapi bagi para pembangun crypto dan pengembang lain yang fokus pada kecepatan, responsivitas, dan sistem multi-agent, model diffusion seperti Mercury 2 membuka kemungkinan praktis baru—dengan syarat alat dan runtime pendukungnya menyusul.