DeepSeek apresenta primitivos visuais para aprimorar o raciocínio espacial da IA

Artigo | LetraAI

No dia anterior ao feriado do Dia do Trabalho, a DeepSeek lançou repentinamente um relatório sobre tecnologia multimodal visual.

Antes de clicar, eu tinha alguma expectativa: simplesmente ver até onde conseguia enxergar e quão nítido era.

Após tudo, no último ano, os modelos multimodais têm estado basicamente nessa direção. A OpenAI fala em "thinking with images", permitindo que o modelo recorte, amplie e gire imagens durante o processo de raciocínio; Gemini e Claude também estão buscando maneiras de permitir que os modelos processem entradas visuais de maior resolução e mais complexas.

A suposição comum é que, quanto mais detalhado o modelo for, mais forte será o raciocínio visual.

Mas ao analisar o relatório do DeepSeek, você perceberá que eles seguiram completamente um caminho diferente.

DeepSeek não focou em "fazer o modelo ver mais pixels"; eles concentraram a atenção em um problema mais fundamental.

Mesmo que o modelo já tenha visto claramente, como você pode garantir que o modelo esteja se referindo à mesma coisa que você durante o raciocínio?

Na verdade, este é o ponto cego mais facilmente ignorado na inferência multimodal.

Quando os humanos olham para uma imagem, podem usar o dedo para marcar objetos. Por exemplo: “Essa pessoa é tal e tal”, “Aquela pessoa é tal e tal”. Mas como o modelo saberia a qual você está se referindo?

O modelo só pode usar linguagem para dizer “o da esquerda”, “o de cima”, “esta linha”. Quando a imagem se torna complexa, a referência linguística se desloca e o raciocínio também desaba.

Então o DeepSeek disse: "Por que não dar ao modelo apenas um 'dedo'?"

Ele transforma pontos e caixas delimitadoras nas unidades básicas de pensamento do modelo, permitindo que o modelo raciocine enquanto aponta para os objetos com esse dedo cibernético.

01 Do contínuo visual aos símbolos discretos

DeepSeek neste relatório técnico apresentou uma questão muito interessante. Eles acreditam que o verdadeiro desafio dos modelos multimodais não é ver imagens, mas manter a referência estável ao mesmo objeto visual durante o raciocínio contínuo.

Por exemplo, você diz ao seu amigo: "No mercado, os vegetais vendidos no balcão da senhora Zhang são os mais frescos". Mas há tantos homens e mulheres idosos no mercado — qual é a senhora Zhang?

Mas se você apontar diretamente com o dedo e disser “é aquele”, seu amigo entenderá imediatamente.

DeepSeek nomeou esse problema como "Reference Gap".

No último ano, quase todos os modelos multimodais de ponta estiveram resolvendo o problema da “lacuna de percepção” (Perception Gap).

Suponha que uma foto esteja diante de você; se a imagem for muito borrada ou tiver resolução muito baixa, você pode não conseguir ler os textos pequenos ou detalhes distantes. A IA é a mesma coisa: se a qualidade da imagem de entrada for insuficiente ou o método de processamento estiver incorreto, ela “não consegue enxergar” — isso é a lacuna de percepção.

Esses modelos, GPT, Claude e Gemini, estão constantemente aumentando a resolução, introduzindo recorte de alta resolução, blocagem dinâmica e processamento em múltiplas escalas, com o objetivo de permitir que os modelos vejam mais detalhes.

Este direção certamente tem valor, mas o DeepSeek apontou no relatório que, mesmo que o modelo veja com clareza, ainda ocorrerão colapsos lógicos em tarefas complexas de raciocínio espacial.

O problema está na própria linguagem natural.

Na foto há dezenas de cães; se você disser "o cão à esquerda", o modelo não conseguirá entender exatamente qual deles você está se referindo.

E tem algo ainda mais extremo: se você pedir ao modelo para contar o número de cães na foto, ele facilmente se confunde durante o processo de inferência sobre quais já contou e quais ainda não contou.

O relatório também mencionou cenários extremos, como navegação em labirintos, nos quais a linguagem pura não consegue descrever com precisão caminhos de formas irregulares e relações topológicas complexas.

A linguagem, como ferramenta de referência, é intrinsicamente ambígua em espaços visuais contínuos. Ela é eficaz em conceitos abstratos e relações causais, mas possui limitações fundamentais na expressão de localização espacial e relações topológicas.

DeepSeek é, por si só, um modelo de linguagem geral; como resolver isso?

Foi assim que surgiu o “dedo” mencionado no início do artigo.

O conceito central que eles propuseram é o de “primitivos visuais” (Visual Primitives), ou seja, elevar os dois marcadores espaciais mais básicos na visão computacional — caixas delimitadoras (bounding boxes) e pontos (points) — a “unidades mínimas do pensamento”.

Os modelos multimodais anteriores podiam marcar caixas ao redor de objetos, mas apenas mostravam o resultado final, provando “encontrei”. É como fazer uma prova e entregar apenas a resposta, sem mostrar o processo de resolução.

Alguns estudos também permitem que a IA desenhe caixas durante o processo de pensamento, mas o objetivo é apenas “ver com mais precisão”; as caixas são apenas uma ferramenta auxiliar. É como usar papel rascunho ao resolver problemas matemáticos — o papel rascunho ajuda a calcular mais claramente, mas não faz parte do raciocínio da solução.

DeepSeek vai fazer algo completamente diferente.

Eles incorporam diretamente esses marcadores de espaço no processo de inferência do modelo, tornando-os componentes orgânicos da inferência. Quando o modelo pensa, ele não apenas descreve em linguagem “Vi um cachorro”, mas também produz simultaneamente “Vi um cachorro, ele está aqui: [[x1,y1,x2,y2]]”.

Este mecanismo é chamado de "point while it reasons" pelo DeepSeek.

DeepSeek

Cada passo do modelo é ancorado nas coordenadas específicas da imagem.

O relatório técnico apresentou apenas este exemplo: o modelo partiu do ponto inicial, explorou, retrocedeu e tentou novamente, finalmente gerando uma sequência completa de coordenadas, cada uma correspondendo a um ponto percorrido no labirinto.

Desta forma, o modelo não se perderá durante o processo de inferência. Ele não ficará confuso sobre o que está dizendo ou a que se refere. Cada objeto visual possui um ponto de âncora espacial claro, tornando o processo de inferência rastreável e verificável.

Esta rota técnica forma uma interessante contraposição com a direção da OpenAI.

A OpenAI menciona explicitamente o conceito de "thinking with images" nas descrições oficiais do o3 e o4-mini, ou seja, o modelo pode incorporar imagens na cadeia de raciocínio e processá-las por meio de recorte, ampliação, rotação, entre outros métodos. O foco deste caminho é tornar a própria imagem parte da cadeia de pensamento, permitindo que o modelo gere novas imagens, modifique imagens e realize operações sobre elas durante o processo de raciocínio.

A rota da OpenAI enfatiza capacidades gerais, com visão, código, busca, arquivos e chamadas de ferramentas trabalhando juntos. O modelo possui uma “plataforma visual” poderosa, capaz de lidar flexivelmente com diversas tarefas visuais.

O caminho do DeepSeek é um pouco mais “simbólico”. Ele faz com que as coordenadas entrem na cadeia de raciocínio. O modelo escreve explicitamente as coordenadas dos quadros delimitadores e dos pontos no texto de raciocínio, transformando os objetos visuais em âncoras reutilizáveis durante o raciocínio.

Isso faz com que a inferência visual da OpenAI ocorra internamente, e os usuários só vejam a resposta final e as explicações necessárias, enquanto o processo intermediário de processamento visual é uma caixa preta. O DeepSeek, por outro lado, intencionalmente torna explícitos os pontos visuais intermediários, deixando o processo de inferência totalmente transparente.

Fazer isso com o DeepSeek tem a vantagem de tornar o processo de raciocínio mais fácil de treinar, verificar e pontuar. Também facilita o design de recompensas em nível de formato, qualidade e tarefa. Especialmente em tarefas como labirintos e rastreamento de caminhos, é possível fornecer feedback mais detalhado sobre a legitimidade do caminho, a cobertura da trajetória, entre outros.

O modelo não apenas aprendeu a produzir respostas corretas, mas também aprendeu a usar primitivas visuais para raciocinar.

02 Efficiency is the core

Um detalhe facilmente ignorado, mas extremamente importante, neste relatório do DeepSeek é que seu modelo utiliza um número muito menor de tokens ao processar imagens em comparação com outros modelos de ponta.

O relatório inclui um gráfico comparativo que mostra o número de tokens consumidos por diferentes modelos ao processar uma imagem de resolução 800×800.

Gemini-3-Flash cerca de 1.100, Claude-Sonnet-4.6 cerca de 870, GPT-5.4 cerca de 740, Qwen3-VL cerca de 660, DeepSeek cerca de 361, mantendo apenas cerca de 90 entradas no cache KV.

Essa diferença não é pequena. O número de tokens usado pelo DeepSeek é apenas um terço do do Gemini, e os entradas de cache KV são cerca de um décimo.

Como essa eficiência extrema é alcançada?

DeepSeek utiliza um mecanismo chamado "Attention Comprimida Esparsa" (Compressed Sparse Attention, CSA).

Você pode entender assim: se você mostrar a um amigo uma foto de família, não dirá “a partir do 237º píxel da esquerda, há uma área vermelha...”, você dirá diretamente “à esquerda está minha mãe, à direita está meu pai”.

DeepSeek-ViT primeiro comprime a imagem em menos tokens visuais, e o CSA depois comprime ainda mais a representação desses tokens visuais no cache KV.

Esse mecanismo já foi utilizado no modelo DeepSeek-V4-Flash e agora está sendo aplicado ao multimodal visual.

O processo de compressão é o seguinte. Uma imagem de 756×756 contém 571.536 pixels. Esses pixels são primeiro processados pelo ViT, divididos em patches de tamanho 14×14, gerando 2.916 patch tokens. Em seguida, ocorre uma compressão espacial 3×3, comprimindo cada 9 tokens adjacentes ao longo da dimensão do canal em 1 único token, resultando em 324 tokens visuais.

Esses 324 tokens são inseridos no modelo de linguagem de grande porte para pré-preenchimento. Por fim, o mecanismo CSA comprime esses tokens visuais ainda mais 4 vezes no cache KV, mantendo apenas 81 entradas finais.

De 571.536 pixels para 81 entradas de cache KV, a taxa de compressão total atingiu 7.056 vezes.

As grandes empresas de IA geralmente usam métodos brutos para acumular recursos de computação, enquanto o DeepSeek faz escolhas no nível da teoria da informação, mantendo apenas as informações mais diretas e fáceis de entender.

Seu resultado mais direto é que a velocidade de inferência aumentou significativamente.

O número de tokens de imagem afeta diretamente a latência de inferência do modelo. Durante o processo de geração autoregressiva, a cada novo token gerado, o modelo precisa realizar cálculos de atenção sobre o cache KV de todos os tokens anteriores. Se a imagem ocupar 1000 tokens, cada geração exigirá atenção sobre esses 1000 tokens. Se ocupar apenas 90, a carga computacional é reduzida significativamente.

Para cenários que exigem resposta em tempo real, como visão robótica, automação autônoma e análise de vídeo em tempo real, o aumento da velocidade de inferência desempenha um papel decisivo.

E também ocupa menos memória.

O cache KV é um gargalo de memória na inferência de grandes modelos. Especialmente ao processar contextos longos ou inferência em lote, o cache KV consome grande quantidade de memória VRAM. O DeepSeek comprime o cache KV dos tokens visuais para 90 entradas, o que significa que é possível processar mais imagens ou diálogos multirround mais longos no mesmo hardware.

Isso é muito importante para implantação real. Muitos modelos multimodais de empresas se saem bem no laboratório, mas enfrentam problemas de custo na implantação real. Quanto mais tokens forem consumidos por imagem, maior será o custo de inferência e menor o número de usuários simultâneos suportados. A vantagem de eficiência do DeepSeek será amplificada na implantação em escala.

Também aumenta indiretamente a capacidade de contexto do modelo.

Se uma imagem ocupar 1000 tokens, apenas cerca de 100 imagens caberão em uma janela de contexto de 128k. Se ocupar apenas 300 tokens, serão possíveis mais de 400 imagens. Isso é crucial para cenários que exigem conversas com múltiplas imagens, análise de vídeos longos e compreensão de grandes volumes de documentos.

Os modelos do DeepSeek podem processar mais imagens em uma única conversa, permitindo comparação e análise de dezenas ou até centenas de imagens, além de rastrear mudanças a longo prazo em vídeos.

O mais importante é o custo de treinamento.

Embora o relatório se concentre principalmente na eficiência de inferência, esse mecanismo de compressão também é eficaz durante a fase de treinamento. Menos tokens visuais significam um grafo de cálculo menor, treinamento mais rápido e requisitos de hardware reduzidos.

DeepSeek sempre se destacou pela filosofia de “fazer melhores resultados com menos recursos”. Desde o treinamento por aprendizado por reforço do R1, até a arquitetura MoE do V4, e agora no multímoda visual, essa filosofia de eficiência prevalece inalterada.

Mas aqui há uma questão fundamental. A compressão causa perda de informação?

DeepSeek não negou que a compressão cause perda de informação. Sua afirmação é que, nesse conjunto de tarefas de raciocínio espacial e contagem, as representações comprimidas ainda são suficientemente eficazes.

Cada etapa de compressão preserva as informações mais importantes para a inferência, descartando redundâncias e ruído.

Na verdade, o mecanismo de primitivas visuais do DeepSeek mencionado anteriormente também é uma forma de compressão de informação. Uma caixa delimitadora pode localizar precisamente um objeto usando apenas quatro números, e um ponto pode marcar uma posição usando apenas dois números. Esses símbolos discretos carregam uma densidade de informação muito maior do que os pixels originais.

Os resultados experimentais mostram que essa compressão não prejudicou o desempenho, mas melhorou em certas tarefas.

This indicates that for many visual reasoning tasks, the bottleneck is not about not seeing clearly enough, but about not finding the right representation.

Essa vantagem de eficiência também demonstra que a inteligência multimodal não precisa necessariamente de modelos maiores, mais poder computacional ou custos mais altos.

Desde o nascimento do DeepSeek, a empresa sempre teve uma linha oculta: “a verdadeira inteligência não está na capacidade de processamento, mas na compreensão da essência do problema”.

Quando você realmente entende o que é necessário para o raciocínio visual, não precisa de tantos tokens. Quando você encontra a representação adequada, não precisa de um modelo tão grande.

Do ponto de vista deste ângulo, a eficiência extrema do DeepSeek não é o objetivo, mas um subproduto. O verdadeiro objetivo é encontrar o paradigma correto para raciocínio visual. A eficiência apenas prova que esse paradigma está correto.

03 Coisas Pendentes

DeepSeek, na seção de limitações do relatório, listou honestamente vários problemas com o método atual. Esses problemas não são pequenas imperfeições técnicas, mas sim apontam para a próxima fase do raciocínio visual.

A primeira questão é a dependência de palavras-chave.

O relatório deixa claro que a capacidade atual de "pensar com primitivos visuais" precisa de palavras-chave explícitas para ser ativada. Ou seja, o modelo ainda não pode decidir naturalmente e autonomamente "quando desenhar caixas ou marcar pontos".

Isso significa que o modelo ainda não aprendeu realmente quando é necessário usar primitivas visuais e quando o linguístico é suficiente.

Na situação ideal, o modelo deveria ser capaz de tomar decisões autônomas com base na natureza da tarefa. Mas quando o usuário perguntar “Quantos cães há na imagem?”, o modelo deveria alternar automaticamente para o modo de primitivas visuais, utilizando caixas delimitadoras para auxiliar na contagem.

Tecnicamente, isso exige a implementação de uma camada de metacognição no modelo. Essa camada de metacognição pode avaliar a complexidade da tarefa atual, determinar se o raciocínio linguístico puro é suficiente e decidir se é necessário invocar primitivos visuais.

DeepSeek ainda não implementou essa camada de metacognição, mas já definiu a direção. Versões futuras podem permitir que o modelo aprenda a decidir autonomamente as estratégias de raciocínio, em vez de depender de gatilhos externos.

A segunda questão é o limite de resolução.

O relatório menciona que, devido à limitação da resolução de entrada, o modelo ainda não desempenha bem em cenários de granularidade fina, e os primitivos visuais gerados às vezes não são suficientemente precisos.

Essa questão está relacionada à estratégia de eficiência do DeepSeek. Para controlar o número de tokens, eles limitam o intervalo de tokens visuais entre 81 e 384. Imagens fora desse intervalo são redimensionadas.

Esse design é razoável na maioria dos cenários, mas enfrenta limitações em tarefas que exigem alta precisão. Por exemplo, a análise de imagens médicas precisa identificar lesões minúsculas, e a inspeção industrial requer a detecção de defeitos sutis — esses cenários exigem alta resolução.

DeepSeek menciona no relatório que esse problema pode ser resolvido integrando métodos de alta resolução existentes. Ou seja, o framework de primitivas visuais deles e os métodos tradicionais de recorte de alta resolução não são opostos, mas complementares.

Acho que a DeepSeek poderia lançar uma solução híbrida.

Para a maioria das tarefas comuns, utiliza-se representações visuais comprimidas e raciocínio com primitivas visuais para manter alta eficiência. Para regiões locais que exigem análise de granularidade fina, recorta-se dinamicamente em alta resolução para extrair informações visuais mais detalhadas. Dessa forma, mantém-se a eficiência geral enquanto atende às necessidades de precisão local.

A chave desse esquema híbrido é fazer com que o modelo aprenda a determinar quais áreas precisam de processamento de alta resolução. Assim, voltamos novamente à questão da metacognição mencionada anteriormente.

A terceira questão é a generalização entre cenários.

O relatório menciona que ainda é difícil resolver problemas de raciocínio topológico complexo usando pontos como primitivas visuais, e a capacidade de generalização do modelo entre cenários é limitada.

Essa questão é mais evidente em tarefas de navegação em labirintos e rastreamento de caminhos. Embora o DeepSeek tenha atingido precisões de 66,9% e 56,7% no conjunto de testes que construiu, superando outros modelos, esses números ainda não são suficientes.

Mais importante, todas essas tarefas foram treinadas e testadas em dados sintéticos. Os labirintos foram gerados algoritmicamente, e as curvas de rastreamento de caminhos também foram desenhadas programaticamente. Quando o modelo enfrentar problemas de raciocínio topológico no mundo real, como planejar rotas em mapas reais ou rastrear conexões em diagramas de tubulações complexas, seu desempenho pode diminuir.

O método do DeepSeek consiste em melhorar a capacidade de generalização por meio de dados em grande escala e alta diversidade. Eles rastrearam 97.984 fontes de dados, mantiveram 31.701 após filtragem rigorosa e obtiveram mais de 40 milhões de amostras finais. Em tarefas de labirinto e rastreamento de caminhos, eles também projetaram várias estruturas topológicas, estilos visuais e níveis de dificuldade, buscando cobrir o máximo possível de variações.

No entanto, a diversidade dos dados é apenas uma parte da capacidade de generalização. O modelo realmente compreende a essência do raciocínio topológico, ou apenas memorizou padrões nos dados de treinamento?

Além disso, os primitivos visuais do DeepSeek são um novo sistema de representação, que requer formatos de dados específicos, fluxos de treinamento e métodos de avaliação. Isso não é totalmente compatível com o ecossistema multimodal existente.

A maioria dos conjuntos de dados e benchmarks multimodais foi projetada com base no paradigma tradicional de "imagem + texto", sem considerar primitivas visuais. Se for avaliar os modelos do DeepSeek nesses benchmarks, será necessário desativar a funcionalidade das primitivas visuais ou redesenhar os métodos de avaliação.

Outros pesquisadores que desejarem reproduzir ou aprimorar este trabalho precisarão reconstruir todo o fluxo de dados e treinamento, o que apresenta uma barreira elevada.

DeepSeek pode abordar essas questões no relatório, o que demonstra que têm uma consciência clara de seu trabalho.

Isso pode ser mais valioso do que dar uma resposta perfeita. Porque o que realmente impulsiona o progresso social muitas vezes não são as respostas, mas as perguntas.