Inception Labs ay naglunsad ng Mercury 2, isang mabilis na diffusion LLM para sa crypto dApps

Inception Labs noong linggo ay nagpalit ng takbo sa AI sa pamamagitan ng Mercury 2, isang bagong “diffusion” language model na inilalarawan ng kumpanya bilang ang pinakamabilis na reasoning LLM sa mundo. Sa mga benchmark at pagsubok ng mga customer, ang pangunahing pag-claim ni Mercury 2 ay ang raw throughput: humigit-kumulang 1,000 tokens bawat segundo kumpara sa humigit-kumulang 89 tokens/sec ng Anthropic’s Claude Haiku 4.5 Reasoning at 71 tokens/sec ng OpenAI’s GPT-5 Mini. Ito ay naglalagay nito sa parehong mataas na bilis na bracket na kinalinkan ng Google sa kanilang sariling DiffusionGemma — maligayang pagdating sa tinatawag na diffusion era ng mga large language models. Ano ang iba’t ibang ginagawa ng diffusion models - Ang mga tradisyonal na chatbot ay nagpapalabas ng teksto isang token nang isang beses, sinusuri ang bawat hakbang habang sila ay nagpapatuloy. Ang diffusion models naman ay nag-uumpisa ng isang bloke ng teksto gamit ang mga noisy placeholder tokens at pinapabuti ang bloke sa ilang parallel na pagdaan hanggang sa lumabas ang huling sagot — isang teknik na kinuha mula sa mga image generator tulad ng Stable Diffusion. - Ang resulta ay mas mataas na parallel throughput at mas mabilis na “flow” para sa mahabang sesyon: instant autocompletes, mas mabilis na pag-iterate sa code o plano, at mga subagent na maaaring mag-run ng maraming mabilis na utility calls nang hindi nagdudulot ng pagbaba sa buong sistema. Mga benchmark at head-to-head - Sa AIME 2026 (batay sa tunay na mga tanong sa American Invitational Mathematics Examination, iskore bilang porsyento ng nalutas), ang Mercury 2 ay nakakuha ng 90%. Ang Google’s DiffusionGemma ay nakakuha ng 69.1% sa parehong pagsubok, samantalang ang standard (hindi-diffusion) Gemma 4 ay nakakuha ng 88.3%. - Sa GPQA, isang PhD-level na science benchmark, ang pagkakaiba ay nagsusukat: Mercury 2 sa 77% kumpara sa 73.2% ng DiffusionGemma. Ang sariling rekomendasyon ng Google ay patuloy na nagpapayo gamitin ang standard Gemma 4 para sa mga aplikasyon na nangangailangan ng pinakamataas na kalidad, at binabanggit na ang DiffusionGemma ay nasa likod nito sa lahat ng aspeto. Paggamit sa totoong mundo at gastos - Ang mga pag-claim sa bilis ni Mercury 2 ay hindi lamang mga numero sa laboratorio. Ang Augment Code, isang AI coding-agent company, ay nagpalit ng Mercury 2 para sa Anthropic’s Claude Opus 4.7 sa isang context-compaction subagent at nagraport ng 82% pagbaba sa latency at 90% pagbaba sa gastos, habang nananatiling komparableng kalidad ng output (ayon sa isang joint case study). Mga pinagmulan at pondo - Ang pagkakaroon ni Inception ay nakabatay sa diffusion research ni founder Stefano Ermon, isang propesor sa Stanford na kasama sa pagsusulat ng maagang score-based diffusion work na ginamit sa image generation. Ang startup ay nakakuha ng $50 milyon na round na may suporta mula sa venture arm ng Nvidia at mga indibidwal na investor tulad ni Andrew Ng at Andrej Karpathy. Ang Mercury 2 ay kasalukuyang available sa pamamagitan ng API/cloud — ang model weights ay hindi pampubliko. Mga praktikal na babala at bagong arkitektura - Ang diffusion LLMs ay nagsusukat kung saan mahalaga ang latency at mataas na throughput (real-time editing, maraming maliit na utility calls, voice interfaces, atbp.), ngunit hindi ito laging pinakamainam para sa pinakamahirap na frontier reasoning tasks, kung saan mas malalaking autoregressive models ay maaaring may karagdagang advantage. - Sa arkitektural na pananaw, ang malaking pagbabago ay patungo sa mga orchestra ng espesyalisadong subagent (reasoners, summarizers, routers, checkers). Ang sequential token-by-token models ay gumagawa ng maraming utility calls na mahal at mabagal; ang parallel diffusion models naman ay gumagawa ng mga calls na sapat na mura upang gamitin nang malaya. - Ang ecosystem ay patuloy pa ring nakakarehas: ang local runtimes, agent frameworks, at iba pang infrastructure ay kailangan pang matuto upang gawing seamless ang diffusion models sa lahat ng lugar. Kung bakit ito mahalaga para sa crypto at web3 - Mas mabilis at mas murang LLMs ay bumababa ang friction para sa latency-sensitive on-chain at off-chain services: - real-time developer tools para sa smart contract coding at “vibe coding” na kasabay ng mga pagbabago; - multi-agent support systems at bots para sa DAOs na nangangailangan ng maraming mabilis na sub-calls; - low-latency voice o chat interfaces para sa wallet, dApp, o on-call node operators; - mas mura ang inference costs para sa oracle preprocessing, monitoring, at alerting pipelines. - Sa malaking saklaw, mas mataas na throughput sa commodity GPUs ay maaaring magdulot ng makabuluhang savings sa gastos at enerhiya para sa mga proyekto na nagpapatakbo ng maraming AI calls. Kabuuan Ang Mercury 2 ay nagdadala ng diffusion LLMs sa “fast and good” quadrant, nagdadala ng malaking pagbaba sa latency at gastos para sa throughput-heavy tasks habang nananatiling kompetitibo ang kalidad. Hindi ito pupalitan ang bawat klase ng model, ngunit para sa crypto builders at iba pang developer na nakatuon sa bilis, responsibilidad, at multi-agent systems, ang diffusion models tulad ng Mercury 2 ay bukas sa bagong praktikal na posibilidad — kondisyon na matutugunan ang paligid na tooling at runtimes.