Inception Labs lance Mercury 2, un LLM à diffusion à haute vitesse pour les dapps crypto

Inception Labs a bouleversé la course à l’IA cette semaine avec Mercury 2, un nouveau modèle linguistique de type « diffusion » que l’entreprise présente comme le LLM le plus rapide au monde en matière de raisonnement. Dans les tests de référence et auprès des clients, la prétention remarquable de Mercury 2 est son débit brut : environ 1 000 jetons par seconde contre environ 89 jetons/seconde pour Claude Haiku 4.5 Reasoning d’Anthropic et 71 jetons/seconde pour GPT-5 Mini d’OpenAI. Cela le place directement dans la même catégorie à haute vitesse que DiffusionGemma de Google — bienvenue dans ce que certains appellent l’ère de la diffusion pour les grands modèles linguistiques. Ce que les modèles de diffusion font différemment - Les chatbots traditionnels génèrent le texte un jeton à la fois, en vérifiant chaque étape au fur et à mesure. Les modèles de diffusion, en revanche, initialisent un bloc de texte avec des jetons génériques bruités et affinent ce bloc en plusieurs passes parallèles jusqu’à ce qu’une réponse finale émerge — une technique empruntée aux générateurs d’images comme Stable Diffusion. - Le résultat est un débit parallèle bien plus élevé et un « flux » plus fluide lors de longues sessions : des complétions instantanées, des itérations plus rapides sur du code ou des plans, et des sous-agents capables d’effectuer de nombreuses appels d’utilité rapides sans ralentir l’ensemble du système. Benchmarks et comparaisons directes - Sur AIME 2026 (basé sur des problèmes réels de l’American Invitational Mathematics Examination, évalué en pourcentage résolu), Mercury 2 a obtenu 90 %. DiffusionGemma de Google a obtenu 69,1 % sur le même test, tandis que Gemma 4 standard (non diffusion) a obtenu 88,3 %. - Sur GPQA, un benchmark scientifique de niveau doctorat, l’écart se réduit : Mercury 2 à 77 % contre 73,2 % pour DiffusionGemma. Les recommandations internes de Google continuent de privilégier Gemma 4 standard pour les applications nécessitant la qualité absolument la plus élevée, notant que DiffusionGemma est inférieur dans tous les domaines. Performance réelle et coût - Les affirmations de vitesse de Mercury 2 ne sont pas seulement des chiffres de laboratoire. Augment Code, une entreprise spécialisée dans les agents d’IA pour le codage, a remplacé Claude Opus 4.7 d’Anthropic par Mercury 2 sur un sous-agent de compression de contexte et a rapporté une baisse de 82 % de la latence et une réduction de 90 % des coûts, tout en conservant une qualité de sortie comparable (selon une étude de cas conjointe). Origines et financement - L’approche d’Inception s’appuie sur des recherches en diffusion menées par le fondateur Stefano Ermon, professeur à Stanford qui a co-écrit les premiers travaux sur la diffusion basée sur les scores utilisés dans la génération d’images. La startup a levé un tour de financement de 50 millions de dollars avec le soutien du bras d’investissement de Nvidia et des investisseurs individuels Andrew Ng et Andrej Karpathy. Mercury 2 est actuellement disponible via API/cloud — les poids du modèle ne sont pas publics. Précautions pratiques et nouvelle architecture - Les LLM de diffusion excellent là où la latence et le débit à haut volume sont cruciaux (édition en temps réel, nombreux petits appels d’utilité, interfaces vocales, etc.), mais ils ne sont pas nécessairement les mieux adaptés aux tâches de raisonnement les plus complexes, où les modèles autoregressifs plus grands peuvent encore conserver un avantage. - Architecturalement, le grand changement consiste à privilégier des orchestres de sous-agents spécialisés (raisonneurs, résumeurs, routeurs, vérificateurs). Les modèles séquentiels jeton par jeton rendent nombreux appels d’utilité lents et coûteux ; les modèles de diffusion parallèles rendent ces appels suffisamment peu coûteux pour être utilisés librement. - L’écosystème est encore en train de rattraper son retard : les environnements locaux, les frameworks d’agents et autres infrastructures doivent mûrir pour rendre les modèles de diffusion fluides partout. Pourquoi cela compte pour la crypto et le web3 - Des LLM plus rapides et moins chers réduisent la friction pour les services sensibles à la latence, qu’ils soient sur chaîne ou hors chaîne : - des outils pour développeurs en temps réel pour le codage de contrats intelligents et le « vibe coding » qui suivent les modifications en direct ; - des systèmes multi-agents et des bots pour les DAO nécessitant de nombreux appels sub-rapides ; - des interfaces vocales ou chat à faible latence pour les wallets, dApps ou opérateurs de nœuds en ligne ; - des coûts d’inférence réduits pour les pipelines de prétraitement, surveillance et alerte des oracles. - À grande échelle, un débit plus élevé sur des GPU grand public peut se traduire par des économies significatives en coûts et en énergie pour les projets qui exécutent un grand nombre d’appels d’IA. Conclusion Mercury 2 pousse les LLM de diffusion dans le quadrant « rapide et bon », offrant des améliorations drastiques en latence et en coût pour les tâches à fort débit tout en conservant une qualité compétitive. Il ne remplacera pas toutes les classes de modèles, mais pour les créateurs crypto et autres développeurs axés sur la vitesse, la réactivité et les systèmes multi-agents, les modèles de diffusion comme Mercury 2 ouvrent de nouvelles possibilités pratiques — à condition que les outils et environnements environnants rattrapent le rythme.