Inception Labs lanza Mercury 2, un LLM de difusión de alta velocidad para dapps de cripto

Inception Labs esta semana revolucionó la carrera de la IA con Mercury 2, un nuevo modelo de lenguaje de tipo “diffusion” que la empresa presenta como el LLM de razonamiento más rápido del mundo. En pruebas de rendimiento y con clientes, la afirmación más destacada de Mercury 2 es su rendimiento bruto: aproximadamente 1.000 tokens por segundo, frente a unos 89 tokens/segundo del Claude Haiku 4.5 Reasoning de Anthropic y 71 tokens/segundo del GPT-5 Mini de OpenAI. Esto lo coloca directamente en la misma categoría de alta velocidad que Google asoció más tarde con su DiffusionGemma: bienvenidos a lo que algunos llaman la era diffusion de los modelos de lenguaje grandes. Qué hacen diferente los modelos diffusion: - Los chatbots tradicionales generan texto un token a la vez, verificando cada paso a medida que avanzan. Los modelos diffusion, en cambio, inicializan un bloque de texto con tokens comodín ruidosos y lo refinan en varias pasadas paralelas hasta que emerge una respuesta final — una técnica tomada de generadores de imágenes como Stable Diffusion. - El resultado es un rendimiento paralelo mucho más alto y un “flujo” más ágil en sesiones largas: autocompletados instantáneos, iteraciones más rápidas en código o planes, y subagentes que pueden realizar múltiples llamadas de utilidad rápidas sin ralentizar todo el sistema. Pruebas y comparativas directas: - En AIME 2026 (basado en problemas reales del American Invitational Mathematics Examination, evaluado como porcentaje resuelto), Mercury 2 obtuvo un 90%. DiffusionGemma de Google obtuvo un 69,1% en la misma prueba, mientras que Gemma 4 estándar (no diffusion) obtuvo un 88,3%. - En GPQA, una prueba científica de nivel PhD, la brecha se reduce: Mercury 2 al 77% frente al 73,2% de DiffusionGemma. La propia guía de Google aún recomienda Gemma 4 estándar para aplicaciones que requieren la máxima calidad absoluta, señalando que DiffusionGemma lo supera en todos los aspectos. Rendimiento real y costo: - Las afirmaciones de velocidad de Mercury 2 no son solo números de laboratorio. Augment Code, una empresa de agentes de codificación por IA, reemplazó al Claude Opus 4.7 de Anthropic con Mercury 2 en un subagente de compresión de contexto y reportó una reducción del 82% en latencia y una reducción del 90% en costos, manteniendo una calidad de salida comparable (según un estudio de caso conjunto). Orígenes y financiamiento: - El enfoque de Inception se basa en investigaciones sobre diffusion del fundador Stefano Ermon, profesor de Stanford que coescribió trabajos tempranos sobre diffusion basados en puntajes utilizados en generación de imágenes. La startup recaudó una ronda de $50 millones con respaldo del brazo de inversión de Nvidia y inversores individuales como Andrew Ng y Andrej Karpathy. Mercury 2 actualmente está disponible mediante API/nube; los pesos del modelo no son públicos. Advertencias prácticas y la nueva arquitectura: - Los LLM diffusion destacan donde importan la latencia y el alto rendimiento (edición en tiempo real, muchas llamadas pequeñas de utilidad, interfaces de voz, etc.), pero no necesariamente son la mejor opción para las tareas más difíciles de razonamiento fronterizo, donde los modelos autoregresivos más grandes aún podrían tener ventaja. - Arquitectónicamente, el gran cambio es hacia orquestas de subagentes especializados (razonadores, resumidores, enrutadores, verificadores). Los modelos secuenciales token por token hacen que muchas llamadas de utilidad sean lentas y costosas; los modelos diffusion paralelos hacen que esas llamadas sean lo suficientemente baratas como para usarlas libremente. - El ecosistema aún está al día: los entornos locales, los marcos de agentes y otra infraestructura necesitan madurar para hacer que los modelos diffusion sean fluidos en todas partes. Dónde importa esto para cripto y web3: - LLM más rápidos y baratos reducen la fricción para servicios sensibles a la latencia en cadena y fuera de cadena: - Herramientas para desarrolladores en tiempo real para codificación de contratos inteligentes y “vibe coding” que sigan el ritmo de las ediciones; - Sistemas y bots multiagente para DAOs que requieren muchas llamadas subrápidas; - Interfaces de voz o chat de baja latencia para monederos, dApps o operadores de nodos disponibles; - Costos de inferencia más bajos para pipelines de preprocesamiento, monitoreo y alertas de oráculos. - A gran escala, un mayor rendimiento en GPUs comunes puede traducirse en ahorros significativos en costos y energía para proyectos que ejecutan muchas llamadas de IA. Conclusión: Mercury 2 impulsa a los LLM diffusion hacia el cuadrante “rápido y bueno”, ofreciendo mejoras drásticas en latencia y costo para tareas intensivas en rendimiento, manteniendo una calidad competitiva. No reemplazará a todas las clases de modelos, pero para creadores cripto y otros desarrolladores enfocados en velocidad, respuesta y sistemas multiagente, los modelos diffusion como Mercury 2 abren nuevas posibilidades prácticas — siempre que las herramientas y entornos circundantes logren ponerse al día.