Executar modelos de inteligência artificial no próprio computador é ótimo — mas nem sempre é possível.
Promete proteção de privacidade, sem taxas de assinatura e os dados não saem do seu dispositivo. Mas para a maioria das pessoas, a realidade é que, entre as frases, o cursor pisca por cinco segundos.
Este gargalo tem um nome: velocidade de inferência. Não tem relação com o nível de inteligência do modelo, mas é um problema de hardware. Modelos de IA padrão geram um fragmento de palavra por vez (chamado de “token”), e o hardware precisa transferir bilhões de parâmetros da memória para a unidade de cálculo para gerar cada token. Este design é intrinsicamente lento. Em hardware de consumo, isso é simplesmente insuportável.
O método alternativo adotado pela maioria é executar modelos menores e menos potentes, ou versões altamente comprimidas, chamadas modelos quantizados. Ambas as abordagens não são perfeitas, pois sacrificam alguma qualidade em troca de velocidade. Embora ambas possam ser executadas, não são os modelos que você realmente deseja.
Agora o Google propôs uma abordagem diferente. A empresa acabou de lançar o rascunho do Multi-Token Prediction (MTP) para sua tecnologia de modelos abertos da família Gemma 4 — uma tecnologia que pode alcançar um aumento de velocidade de até 3 vezes, sem afetar em nada a qualidade do modelo ou sua capacidade de inferência.
Este método é chamado de decodificação especulativa, e seu conceito existe há muitos anos. Pesquisadores do Google publicaram o artigo fundador já em 2022. Somente agora esta ideia começou a ser amplamente adotada, pois exige uma arquitetura adequada para operar em larga escala.
Em resumo, seu funcionamento é o seguinte: em vez de deixar o grande modelo poderoso realizar todo o trabalho sozinho, ele é combinado com um pequeno modelo “preditor”. O preditor é rápido e de baixo custo — ele pode prever múltiplos tokens simultaneamente, em menos tempo do que o modelo principal leva para gerar um único token. Em seguida, o grande modelo verifica todas essas previsões em apenas uma passagem. Se as previsões estiverem corretas, a sequência completa é obtida com o custo de apenas uma passagem forward.
According to Google, "If the target model agrees with the draft, it accepts the entire sequence in a single forward pass—even generating its own additional tokens in the process."
Sem perda alguma: modelos grandes — como a versão densa de 31 bilhões de parâmetros do Gemma 4 — ainda validam cada token, com a mesma qualidade de saída. Você simplesmente aproveita a capacidade de computação ociosa nas partes lentas.
O Google afirmou que o modelo de esboço compartilha o cache de chave-valor (cache KV) com o modelo de destino, uma estrutura de memória que armazena o contexto já processado, permitindo que eles não desperdicem tempo recalculando informações já conhecidas pelo modelo grande. Para modelos de borda menores, projetados especificamente para dispositivos móveis e Raspberry Pi, a equipe desenvolveu até mesmo uma técnica de agrupamento eficiente para reduzir ainda mais o tempo de geração.
Esta não é a única tentativa da área de inteligência artificial em paralelizar a geração de texto. Modelos linguísticos baseados em difusão — como o Mercury, da Inception Labs — adotam uma abordagem totalmente diferente: em vez de prever um token por vez, eles começam com ruído e otimizam iterativamente toda a saída. Teoricamente rápidos, os modelos linguísticos de difusão ainda não conseguem igualar a qualidade dos modelos Transformer tradicionais, sendo mais vistos como objetos de pesquisa do que como ferramentas práticas.
A decodificação especulativa é diferente porque não altera em nada o modelo subjacente. É uma otimização de serviço, não uma substituição de arquitetura. A versão do Gemma 4 que você estava executando se tornará mais rápida.
Os resultados reais são realmente significativos. De acordo com os testes de referência do próprio Google, ao ativar o rascunho do MTP no chip Gemma 4 26B com GPU desktop Nvidia RTX Pro 6000, a taxa de processamento de tokens por segundo aproximadamente dobrou. Nos chips Apple Silicon, tamanhos de lote de 4 a 8 requisições podem proporcionar um aumento de velocidade de cerca de 2,2 vezes. Embora nem todos os cenários alcancem o limite de 3 vezes, ainda assim trata-se de uma diferença significativa entre “apenas utilizável” e “rápido o suficiente para ser usado na prática”.
O contexto é importante. Quando o modelo chinês DeepSeek surpreendeu o mercado em janeiro de 2025. — causando a perda de US$ 600 bilhões no valor de mercado da NVIDIA em um único dia — a lição central foi: melhorias na eficiência têm mais impacto do que simplesmente aumentar a capacidade de computação. Um funcionamento mais inteligente supera o investimento contínuo em hardware. A ferramenta de mapeamento MTP do Google é mais um passo nessa direção, embora seu público-alvo seja claramente os consumidores.
A indústria inteira de inteligência artificial atualmente é como um triângulo, composto por três partes: inferência, treinamento e memória. Qualquer avanço em um desses campos tem o potencial de impulsionar ou impactar todo o ecossistema. O método de treinamento do DeepSeek (construir modelos poderosos usando hardware de baixo custo) é um exemplo, e o …TurboQuant do Google (como reduzir a memória da IA sem comprometer a qualidade) é outro artigo. Ambos os artigos provocaram uma queda no mercado, pois as empresas estão se esforçando para encontrar respostas.
O Google afirmou que a ferramenta de mapeamento pode "aumentar a resposta: reduzir significativamente a latência em chats quase em tempo real, aplicativos de voz imersivos e fluxos de trabalho de agentes" — tarefas que exigem baixa latência para funcionar realmente bem.
Aplicações claras e rápidas: um assistente de código local sem atraso; uma interface de voz que responde antes mesmo de você esquecer o que perguntou; um fluxo de trabalho inteligente que conclui etapas sem precisar esperar três segundos. Tudo isso pode ser feito com seu hardware atual.
O rascunho do MTP agora está online 拥抱脸 Eles são compatíveis com a licença Apache 2.0, Kaggle e Ollama. Eles funcionam imediatamente, com suporte a vLLM, MLX, SGLang e Hugging Face Transformers.
