इन्सेप्शन लैब्स ने मर्कुरी 2, क्रिप्टो dApp के लिए एक हाई-स्पीड डिफ्यूजन LLM लॉन्च किया

Inception Labs ने इस सप्ताह Mercury 2 के साथ AI दौड़ को हिला दिया, जो एक नया “diffusion” language मॉडल है, जिसे कंपनी दुनिया का सबसे तेज़ reasoning LLM बता रही है। Benchmark और ग्राहक परीक्षणों में Mercury 2 का सबसे बड़ा दावा है raw throughput: लगभग 1,000 tokens प्रति सेकंड, जबकि Anthropic के Claude Haiku 4.5 Reasoning के लिए लगभग 89 tokens/sec और OpenAI के GPT-5 Mini के लिए 71 tokens/sec। यह इसे उसी high-speed bracket में रखता है, जिसे बाद में Google ने अपने DiffusionGemma से जोड़ा — यानी उस diffusion युग में आपका स्वागत है, जिसके बारे में कुछ लोग कहते हैं कि यह large language models का अगला चरण है। Diffusion models क्या अलग करते हैं - पारंपरिक chatbots टेक्स्ट को एक समय में एक token जनरेट करते हैं, और हर चरण पर चेक करते चलते हैं। Diffusion models इसके बजाय noisy placeholder tokens के साथ एक टेक्स्ट ब्लॉक को initialize करते हैं और कई parallel पास में उस ब्लॉक को refine करते हैं, जब तक कि अंतिम उत्तर उभर कर न आ जाए — यह तकनीक Stable Diffusion जैसे image generators से ली गई है। - नतीजा है बहुत अधिक parallel throughput और लंबी sessions के लिए अधिक तेज़ “flow”: तुरंत autocomplete, कोड या योजनाओं पर तेज़ iterations, और subagents जो बहुत सारे छोटे utility calls चला सकते हैं, बिना पूरे सिस्टम को धीमा किए। Benchmarks और head-to-heads - AIME 2026 पर (जो वास्तविक American Invitational Mathematics Examination समस्याओं पर आधारित है, और प्रतिशत समाधान के रूप में स्कोर किया जाता है) Mercury 2 ने 90% स्कोर किया। Google के DiffusionGemma ने उसी टेस्ट पर 69.1% स्कोर किया, जबकि standard (non-diffusion) Gemma 4 ने 88.3% स्कोर किया। - GPQA, एक PhD-स्तरीय science benchmark, पर अंतर कम हो जाता है: Mercury 2 77% पर, जबकि DiffusionGemma 73.2% पर। Google का अपना मार्गदर्शन अब भी उन applications के लिए standard Gemma 4 की सिफारिश करता है, जिन्हें absolute highest quality की ज़रूरत होती है, और यह नोट करता है कि DiffusionGemma कुल मिलाकर उससे पीछे है। Real-world प्रदर्शन और लागत - Mercury 2 की speed संबंधी दावे सिर्फ़ लैब के आंकड़े नहीं हैं। Augment Code, एक AI coding-agent कंपनी, ने एक context-compaction subagent पर Anthropic के Claude Opus 4.7 के बदले Mercury 2 का इस्तेमाल किया और 82% latency में गिरावट तथा 90% लागत में कमी रिपोर्ट की, जबकि आउटपुट गुणवत्ता को तुलनीय स्तर पर बनाए रखा (एक संयुक्त case study के अनुसार)। Origins और फंडिंग - Inception का तरीका इसके संस्थापक Stefano Ermon के diffusion शोध पर आधारित है, जो Stanford के प्रोफेसर हैं और जिन्होंने image generation में उपयोग होने वाले शुरुआती score-based diffusion कार्यों का सह-लेखन किया है। इस startup ने $50 मिलियन का राउंड उठाया, जिसमें Nvidia के venture arm और व्यक्तिगत निवेशक Andrew Ng तथा Andrej Karpathy का समर्थन शामिल था। Mercury 2 वर्तमान में API/cloud के ज़रिए उपलब्ध है — मॉडल के weights सार्वजनिक नहीं हैं। Practical चेतावनियाँ और नई architecture - Diffusion LLMs वहाँ उत्कृष्ट हैं जहाँ latency और high-volume throughput मायने रखते हैं (real-time editing, बहुत सारे छोटे utility calls, voice interfaces, आदि), लेकिन वे ज़रूरी नहीं कि सबसे कठिन frontier reasoning tasks के लिए सबसे बेहतर हों, जहाँ बड़े autoregressive models अब भी बढ़त रख सकते हैं। - Architecture के स्तर पर बड़ा बदलाव specialized subagents (reasoners, summarizers, routers, checkers) के orchestras की ओर है। Sequential token-by-token models बहुत सारे utility calls को धीमा और महँगा बना देते हैं; parallel diffusion models इन calls को इतना सस्ता बना देते हैं कि उन्हें भरपूर तरीके से इस्तेमाल किया जा सके। - परितंत्र अभी भी catching up कर रहा है: local runtimes, agent frameworks, और अन्य infrastructure को परिपक्व होने की ज़रूरत है, ताकि diffusion models हर जगह सहजता से काम कर सकें। Crypto और web3 के लिए यह कहाँ मायने रखता है - तेज़, सस्ते LLMs latency-sensitive on-chain और off-chain services के लिए friction कम करते हैं: - real-time developer tools जो smart contract coding और “vibe coding” के लिए edits की रफ़्तार के साथ तालमेल बना कर चलते हैं; - multi-agent support systems और DAOs के लिए bots, जिन्हें बहुत सारे तेज़ sub-calls की ज़रूरत होती है; - wallets, dApps या on-call नोड operators के लिए low-latency voice या chat interfaces; - oracle preprocessing, monitoring, और alerting pipelines के लिए सस्ते inference costs। - बड़े पैमाने पर, commodity GPUs पर अधिक throughput उन projects के लिए महत्वपूर्ण लागत और energy बचत में बदल सकता है, जो बड़ी संख्या में AI calls चलाते हैं। निचोड़ Mercury 2 diffusion LLMs को “तेज़ और बेहतर” quadrant में धकेलता है, throughput-heavy tasks के लिए latency और लागत में नाटकीय सुधार देते हुए भी गुणवत्ता को प्रतिस्पर्धी स्तर पर रखता है। यह हर model class की जगह नहीं लेगा, लेकिन crypto builders और अन्य डेवलपर्स के लिए, जो speed, responsiveness और multi-agent systems पर केंद्रित हैं, Mercury 2 जैसे diffusion models नई व्यावहारिक संभावनाएँ खोलते हैं — बशर्ते आसपास की tooling और runtimes इस गति के साथ कदम मिला लें।