Inception Labs, Kripto dApp'ler için Yüksek Hızlı Diffusion LLM olan Mercury 2'yi başlatıyor

Bu hafta Inception Labs, Mercury 2 adlı yeni bir “diffusion” dil modeliyle AI yarışını sarstı; şirket, bu modeli dünyanın en hızlı akıl yürütme LLM'si olarak tanıttı. Benchmark ve müşteri testlerinde Mercury 2’nin öne çıkan iddiası, ham veri aktarım hızıdır: yaklaşık 1.000 token/saniye, Anthropic’ın Claude Haiku 4.5 Reasoning’ine karşı yaklaşık 89 token/saniye ve OpenAI’nin GPT-5 Mini’sine karşı 71 token/saniye. Bu, Google’ın daha sonra DiffusionGemma ile ilişkilendirdiği yüksek hız kategorisine tam olarak giriyor — bazıları büyük dil modellerinin diffusion çağına hoş geldin diyor. Diffusion modellerinin farklı yaptığı şeyler: - Geleneksel sohbet robotları, her adımı kontrol ederek tek tek token üretir. Diffusion modelleri ise bir metin bloğunu gürültülü yer tutucu token’larla başlatır ve son bir cevap ortaya çıkana kadar bu bloğu birkaç paralel geçişte inceleyerek geliştirir — bu teknik, Stable Diffusion gibi görüntü üreticilerinden alınmıştır. - Sonuç olarak çok daha yüksek paralel veri aktarım hızı ve uzun oturumlar için daha hızlı bir “akış” elde edilir: anlık tamamlama, kod veya planlar üzerinde daha hızlı yinelemeler ve tüm sistemi yavaşlatmadan birçok hızlı yardımcı çağrısı yapan alt ajanlar. Benchmark ve doğrudan karşılaştırmalar: - AIME 2026’da (gerçek Amerikan Matematiksel Davet Sınavı problemlerine dayalı, çözülen yüzde olarak değerlendirilen), Mercury 2 %90 puan aldı. Google’ın DiffusionGemma’sı aynı testte %69,1 puan aldı, standart (diffusion olmayan) Gemma 4 ise %88,3 puan aldı. - PhD seviyesindeki bilimsel bir benchmark olan GPQA’da fark daralıyor: Mercury 2 %77, DiffusionGemma %73,2. Google’ın kendi önerisi, mutlak en yüksek kalite gerektiren uygulamalar için hâlâ standart Gemma 4’ü öneriyor ve DiffusionGemma’nın tüm alanlarda onun gerisinde kaldığını belirtiyor. Gerçek dünya performansı ve maliyet: - Mercury 2’nin hız iddiaları sadece laboratuvar sayıları değil. AI kodlama ajanı şirketi Augment Code, Mercury 2’yi Anthropic’ın Claude Opus 4.7 yerine bir bağlam sıkıştırma alt ajanında kullandı ve ortak bir vaka çalışmasına göre %82 gecikme düşüşü ve %90 maliyet azalması bildirdi; çıktı kalitesi karşılaştırılabilir düzeyde kaldı. Kökenleri ve finansman: - Inception’in yaklaşımı, kurucusu Stanford profesörü Stefano Ermon’un resim üretimi için kullanılan erken skor-tabanlı diffusion çalışmalarına dayanıyor. Startup, Nvidia’nın sermaye kolu ve bireysel yatırımcılar Andrew Ng ile Andrej Karpathy’nin desteğiyle 50 milyon dolarlık bir tur topladı. Mercury 2 şu anda API/cloud üzerinden mevcut; model ağırlıkları kamuoyuna açık değil. Pratik uyarılar ve yeni mimari: - Diffusion LLM’ler, gecikme ve yüksek hacimli veri aktarımı önemli olduğunda (gerçek zamanlı düzenleme, birçok küçük yardımcı çağrısı, ses arayüzleri vb.) üstün performans gösterir; ancak en zor sınır akıl yürütme görevleri için mutlaka en iyi çözüm olmayabilir — burada daha büyük otoregresif modeller hâlâ avantajlı olabilir. - Mimarideki büyük değişim, özel alt ajanların (akıl yürütenler, özetleyiciler, yönlendiriciler, denetleyiciler) orkestralarına doğru ilerlemektir. Sıralı token-bir-token modelleri birçok yardımcı çağrıyı yavaş ve pahalı hale getirir; paralel diffusion modelleri bu çağrıları yeterince ucuz hale getirir ki serbestçe kullanılabilir. - Ekosistem hâlâ bu gelişime yetişiyor: yerel çalışma zamanları, ajan çerçeveleri ve diğer altyapılar, diffusion modellerinin her yerde sorunsuz hale gelmesi için olgunlaşmaya ihtiyaç duyuyor. Kripto ve web3 için bu ne anlama geliyor: - Daha hızlı, daha ucuz LLM’ler, gecikmeye duyarlı zincir içi ve zincir dışı hizmetler için sürtünmeyi azaltır: - Akıllı sözleşmeleri kodlama ve düzenlemelerle eş zamanlı “vibe kodlama” için gerçek zamanlı geliştirici araçları; - DAO’lar için birçok hızlı alt çağrı gerektiren çok ajan destek sistemleri ve botlar; - Cüzdanlar, dapp’ler veya çağrıda olan node operatörleri için düşük gecikmeli ses veya sohbet arayüzleri; - Oracle ön işleme, izleme ve uyarı sistemleri için daha düşük çıkarım maliyetleri. - Ölçeklenebilirlikte, standart GPU’lar üzerindeki daha yüksek veri aktarım hızı, birçok AI çağrısı çalıştıran projeler için anlamlı maliyet ve enerji tasarruflarına dönüşebilir. Sonuç: Mercury 2, diffusion LLM’leri “hızlı ve iyi” karesine taşıyor; yüksek veri aktarımı gerektiren görevlerde dramatik gecikme ve maliyet iyileştirmeleri sunarken rekabetçi kaliteyi koruyor. Her model sınıfını yerine geçmeyecek; ancak hız, yanıt verme hızı ve çok ajan sistemleri üzerinde odaklanan kripto geliştiricileri ve diğer mühendisler için Mercury 2 gibi diffusion modelleri yeni pratik imkanlar açıyor — tabii ki çevreleyen araçlar ve çalışma zamanları bu gelişime yetişebilirse.