Inception Labs Melancarkan Mercury 2, LLM Diffusi Berkelajuan Tinggi untuk dApp Kripto

Inception Labs minggu ini mengguncang persaingan AI dengan Mercury 2, model bahasa "diffusion" baru yang diklaim perusahaan sebagai LLM penalaran tercepat di dunia. Dalam ujian benchmark dan pelanggan, klaim utama Mercury 2 adalah throughput mentah: sekitar 1.000 token per detik dibandingkan sekitar 89 token/detik untuk Claude Haiku 4.5 Reasoning milik Anthropic dan 71 token/detik untuk GPT-5 Mini milik OpenAI. Hal ini menempatkannya tepat di kelas kecepatan tinggi yang kemudian dikaitkan Google dengan DiffusionGemma miliknya sendiri — selamat datang di apa yang disebut beberapa orang sebagai era diffusion pada large language models. Apa yang membedakan model diffusion: - Chatbot tradisional menghasilkan teks satu token pada satu waktu, memeriksa setiap langkah secara bertahap. Model diffusion justru menginisialisasi blok teks dengan token placeholder berisik dan menyempurnakan blok tersebut dalam beberapa proses paralel hingga jawaban akhir muncul — teknik yang diambil dari generator gambar seperti Stable Diffusion. - Hasilnya adalah throughput paralel yang jauh lebih tinggi dan "aliran" yang lebih cepat selama sesi panjang: autocomplete instan, iterasi lebih cepat pada kode atau rencana, serta subagent yang dapat menjalankan banyak panggilan utilitas cepat tanpa memperlambat keseluruhan sistem. Benchmark dan perbandingan langsung: - Pada AIME 2026 (berdasarkan soal ujian matematika American Invitational Mathematics Examination nyata, dinilai sebagai persentase soal yang diselesaikan), Mercury 2 mendapat skor 90%. DiffusionGemma milik Google mendapat skor 69,1% pada tes yang sama, sementara Gemma 4 standar (bukan diffusion) mendapat skor 88,3%. - Pada GPQA, benchmark sains tingkat PhD, kesenjangan menyempit: Mercury 2 pada 77% vs. DiffusionGemma pada 73,2%. Panduan internal Google tetap merekomendasikan Gemma 4 standar untuk aplikasi yang membutuhkan kualitas tertinggi mutlak, mencatat bahwa DiffusionGemma kalah di semua aspek. Kinerja dunia nyata dan biaya: - Klaim kecepatan Mercury 2 bukan hanya angka laboratorium. Augment Code, perusahaan agen pengkodean AI, mengganti Claude Opus 4.7 milik Anthropic dengan Mercury 2 pada subagent kompaksi konteks dan melaporkan penurunan latensi 82% serta pengurangan biaya 90%, sambil mempertahankan kualitas output yang sebanding (menurut studi kasus bersama). Asal-usul dan pendanaan: - Pendekatan Inception dibangun di atas penelitian diffusion oleh pendiri Stefano Ermon, seorang profesor Stanford yang turut menulis karya awal diffusion berbasis skor yang digunakan dalam generasi gambar. Startup ini mengumpulkan putaran pendanaan $50 juta dengan dukungan dari lengan ventura Nvidia dan investor individu Andrew Ng serta Andrej Karpathy. Mercury 2 saat ini tersedia melalui API/cloud — bobot model tidak tersedia publik. Peringatan praktis dan arsitektur baru: - LLM diffusion unggul di area yang mengutamakan latensi dan throughput volume tinggi (pengeditan real-time, banyak panggilan utilitas kecil, antarmuka suara, dll.), tetapi tidak selalu cocok untuk tugas penalaran paling sulit di frontier, di mana model autoregresif lebih besar mungkin masih unggul. - Secara arsitektural, pergeseran besar adalah menuju orkestra subagent khusus (reasoners, summarizers, routers, checkers). Model token-per-token sekuensial membuat banyak panggilan utilitas lambat dan mahal; model diffusion paralel membuat panggilan tersebut cukup murah untuk digunakan secara luas. - Ekosistem masih mengejar ketertinggalan: runtime lokal, kerangka kerja agen, dan infrastruktur lainnya perlu matang agar model diffusion dapat berjalan mulus di mana saja. Di mana hal ini penting untuk crypto dan web3: - LLM yang lebih cepat dan lebih murah mengurangi hambatan untuk layanan on-chain dan off-chain yang sensitif terhadap latensi: - alat pengembang real-time untuk pengkodean kontrak pintar dan "vibe coding" yang mengikuti perubahan; - sistem dan bot multi-agent untuk DAO yang membutuhkan banyak panggilan sub-cepat; - antarmuka suara atau obrolan latensi rendah untuk dompet, dapp, atau operator nod yang siap siaga; - biaya inferensi lebih murah untuk pipeline preprocessing oracle, pemantauan, dan alerting. - Dalam skala besar, throughput lebih tinggi di GPU komoditas dapat diterjemahkan menjadi penghematan biaya dan energi yang berarti bagi proyek yang menjalankan banyak panggilan AI. Kesimpulan Mercury 2 mendorong LLM diffusion ke kuadran "cepat dan baik", memberikan peningkatan dramatis dalam latensi dan biaya untuk tugas-tugas berbasis throughput sambil tetap mempertahankan kualitas kompetitif. Model ini tidak akan menggantikan setiap kelas model, tetapi bagi para pembangun crypto dan pengembang lain yang fokus pada kecepatan, responsivitas, dan sistem multi-agent, model diffusion seperti Mercury 2 membuka kemungkinan praktis baru — asalkan alat dan runtime pendukungnya mengejar ketertinggalan.