Inception Labs lança o Mercury 2, um LLM de difusão de alta velocidade para dapps de cripto

Inception Labs esta semana revolucionou a corrida pela IA com o Mercury 2, um novo modelo de linguagem de tipo “diffusion” que a empresa apresenta como o LLM de raciocínio mais rápido do mundo. Em testes de benchmark e com clientes, a principal reivindicação do Mercury 2 é seu rendimento bruto: cerca de 1.000 tokens por segundo, contra aproximadamente 89 tokens/s do Claude Haiku 4.5 Reasoning da Anthropic e 71 tokens/s do GPT-5 Mini da OpenAI. Isso o coloca diretamente na mesma faixa de alta velocidade que o Google posteriormente associou ao seu DiffusionGemma — bem-vindos àquilo que alguns chamam de era diffusion dos grandes modelos de linguagem. O que os modelos diffusion fazem de diferente: - Chatbots tradicionais geram texto um token por vez, verificando cada etapa à medida que avançam. Os modelos diffusion, em vez disso, inicializam um bloco de texto com tokens de espaço reservado ruidosos e refinam esse bloco em várias passagens paralelas até que uma resposta final surja — uma técnica emprestada de geradores de imagens como o Stable Diffusion. - O resultado é um rendimento paralelo muito maior e um “fluxo” mais ágil em sessões longas: autocompletar instantâneo, iterações mais rápidas em código ou planos e subagentes que podem executar muitas chamadas de utilidade rápidas sem arrastar todo o sistema. Benchmarks e confrontos diretos: - No AIME 2026 (baseado em problemas reais do American Invitational Mathematics Examination, pontuados como percentual resolvido), o Mercury 2 obteve 90%. O DiffusionGemma do Google obteve 69,1% no mesmo teste, enquanto o Gemma 4 padrão (não diffusion) obteve 88,3%. - No GPQA, um benchmark de ciência de nível PhD, a diferença se reduz: Mercury 2 com 77% contra 73,2% do DiffusionGemma. A própria orientação do Google ainda recomenda o Gemma 4 padrão para aplicações que exigem a mais alta qualidade absoluta, observando que o DiffusionGemma fica atrás em todos os aspectos. Desempenho real e custo: - As afirmações de velocidade do Mercury 2 não são apenas números de laboratório. A Augment Code, uma empresa de agente de codificação por IA, substituiu o Claude Opus 4.7 da Anthropic pelo Mercury 2 em um subagente de compactação de contexto e relatou uma redução de 82% na latência e uma redução de 90% nos custos, mantendo qualidade de saída comparável (segundo um estudo de caso conjunto). Origens e financiamento: - A abordagem da Inception se baseia em pesquisas sobre diffusion conduzidas pelo fundador Stefano Ermon, professor da Stanford que coautorou trabalhos iniciais sobre diffusion baseado em pontuação usados na geração de imagens. A startup arrecadou uma rodada de US$ 50 milhões com apoio da braço de venture da Nvidia e investidores individuais Andrew Ng e Andrej Karpathy. O Mercury 2 está atualmente disponível via API/nuvem — os pesos do modelo não são públicos. Avisos práticos e a nova arquitetura: - LLMs diffusion se destacam onde latência e alto rendimento são cruciais (edição em tempo real, muitas chamadas pequenas de utilidade, interfaces de voz etc.), mas não são necessariamente a melhor escolha para tarefas de raciocínio mais difíceis, onde modelos autoregressivos maiores ainda podem ter vantagem. - Arquitetonicamente, a grande mudança é em direção a orquestras de subagentes especializados (raciocinadores, resumidores, roteadores, verificadores). Modelos sequenciais token por token tornam muitas chamadas de utilidade lentas e caras; modelos diffusion paralelos tornam essas chamadas baratas o suficiente para serem usadas liberalmente. - O ecossistema ainda está se adaptando: runtimes locais, frameworks de agentes e outras infraestruturas precisam amadurecer para tornar os modelos diffusion perfeitamente integrados em todos os lugares. Onde isso importa para cripto e web3: - LLMs mais rápidas e baratas reduzem a fricção para serviços on-chain e off-chain sensíveis à latência: - ferramentas de desenvolvedor em tempo real para codificação de contratos inteligentes e “vibe coding” que acompanham edições; - sistemas multiagentes e bots para DAOs que exigem muitas chamadas rápidas; - interfaces de voz ou chat de baixa latência para carteiras, dApps ou operadores de node em serviço; - custos inferenciais mais baixos para pipelines de pré-processamento, monitoramento e alertas de oráculos. - Em escala, maior rendimento em GPUs comuns pode se traduzir em economias significativas de custo e energia para projetos que executam muitas chamadas de IA. Conclusão: O Mercury 2 leva os LLMs diffusion para o quadrante “rápido e bom”, entregando melhorias dramáticas em latência e custo para tarefas intensivas em rendimento, mantendo qualidade competitiva. Ele não substituirá todas as classes de modelos, mas para construtores de cripto e outros desenvolvedores focados em velocidade, resposta e sistemas multiagentes, modelos diffusion como o Mercury 2 abrem novas possibilidades práticas — desde que as ferramentas e runtimes ao redor estejam prontos.