DeepSeek introduit des primitives visuelles pour améliorer le raisonnement spatial de l'IA

Article | LettreAI

La veille des vacances du 1er mai, DeepSeek a soudainement publié un rapport sur la technologie multimodale visuelle.

Avant de cliquer, j'avais une idée assez claire de ce à quoi m'attendre : simplement voir à quelle distance et avec quelle netteté.

Après tout, au cours de la dernière année, les modèles multimodaux se sont tous orientés dans cette direction. OpenAI parle de « thinking with images », permettant au modèle de recadrer, agrandir et faire pivoter des images pendant le processus d’inférence ; Gemini et Claude cherchent également à permettre au modèle de traiter des entrées visuelles de résolution plus élevée et plus complexes.

L'hypothèse commune est que plus le modèle observe en détail, plus le raisonnement visuel s'améliorera naturellement.

Mais en lisant le rapport de DeepSeek, vous constaterez qu'ils ont complètement emprunté un autre chemin.

DeepSeek n'a pas mis l'accent sur « faire en sorte que le modèle voie plus de pixels », ils ont concentré leur attention sur un problème plus fondamental.

Même si le modèle a bien vu, comment pouvez-vous vous assurer que le modèle et vous faites référence à la même chose lors de son raisonnement ?

En réalité, c'est le point mort le plus souvent négligé dans le raisonnement multimodal.

Lorsque les humains regardent une image, ils peuvent utiliser leur doigt pour désigner un objet, par exemple : « Cette personne, c’est telle personne », « Cette autre personne, c’est telle personne ». Mais comment le modèle saurait-il à quelle personne vous faites référence ?

Le modèle ne peut utiliser le langage que pour dire « celui de gauche », « celui du haut », « cette ligne ». Dès que la scène devient complexe, les références linguistiques deviennent floues et le raisonnement s'effondre.

Alors DeepSeek a dit : pourquoi ne pas simplement donner au modèle un « doigt » ?

Il transforme les points et les boîtes englobantes en unités de base pour la réflexion du modèle, permettant au modèle de raisonner tout en pointant l'objet avec ce doigt cybernétique.

01 De la vision continue aux symboles discrets

DeepSeek pose une question intéressante dans ce rapport technique. Ils estiment que le véritable défi des modèles multimodaux n'est pas de voir les images, mais de maintenir une référence stable au même objet visuel tout au long d'un raisonnement continu.

Par exemple, vous dites à votre ami : « Dans le marché, les légumes du stand de la vieille dame Zhang sont les plus frais. » Mais il y a tant de vieux hommes et de vieilles femmes dans le marché, laquelle est la vieille dame Zhang ?

Mais si tu pointes du doigt et dis simplement « C’est celui-là », ton ami comprendra immédiatement.

DeepSeek appelle ce problème le « Reference Gap ».

Au cours de la dernière année, presque tous les modèles multimodaux de pointe ont cherché à résoudre le « écart de perception » (Perception Gap).

Supposons qu'une photo soit placée devant vous ; si elle est trop floue ou de résolution trop faible, vous pourriez ne pas distinguer les petits caractères ou les détails lointains. Il en va de même pour l'IA : si la qualité de l'image d'entrée est insuffisante ou si le traitement est inadéquat, elle « ne verra pas clairement » — c'est ce qu'on appelle le fossé perceptif.

Ces modèles, tels que GPT, Claude et Gemini, améliorent constamment la résolution en introduisant le recadrage haute résolution, le découpage dynamique et le traitement multi-échelle, dans le but de permettre au modèle de voir plus de détails.

Cette direction a certainement de la valeur, mais DeepSeek indique dans son rapport que, même si le modèle voit très clairement, il peut toujours connaître une défaillance logique dans des tâches complexes de raisonnement spatial.

Le problème vient du langage naturel lui-même.

La photo contient une dizaine de chiens ; si vous dites « le chien à gauche », le modèle ne pourra pas comprendre exactement lequel vous désignez.

Il y a même pire : si vous demandez au modèle de compter le nombre de chiens dans une photo, il lui est facile de perdre trace de ceux qu'il a déjà comptés et de ceux qui restent à compter.

Le rapport mentionne également des cas extrêmes tels que la navigation dans un labyrinthe, où le langage pur ne peut pas décrire avec précision les chemins de formes irrégulières et les relations topologiques complexes.

Le langage, en tant qu'outil de désignation, est intrinsèquement flou dans un espace visuel continu. Il excelle dans les concepts abstraits et les relations causales, mais présente des limites fondamentales dans l'expression de la localisation spatiale et des relations topologiques.

DeepSeek est lui-même un modèle linguistique général ; comment résoudre cela ?

C'est ainsi que l'on obtient le « doigt » mentionné en début d'article.

Le concept central qu'ils proposent est celui des « visual primitives », à savoir faire des deux marqueurs spatiaux les plus fondamentaux en vision par ordinateur — les boîtes englobantes (bounding boxes) et les points — les unités minimales de la pensée.

Les modèles multimodaux précédents pouvaient également encadrer les objets, mais ils ne vous montraient que le résultat final, prouvant simplement « je l'ai trouvé ». C'est comme à un examen où vous ne remettez que la réponse, sans montrer votre raisonnement.

Certaines études ont également permis à l’IA de dessiner des cadres pendant son processus de réflexion, mais uniquement dans le but de « voir plus clairement » ; les cadres ne sont qu’un outil d’assistance. C’est comme utiliser du papier brouillon pour résoudre un problème de mathématiques : le papier brouillon vous aide simplement à calculer plus clairement, mais il ne fait pas partie intégrante de la méthode de résolution.

DeepSeek veut faire quelque chose de complètement différent.

Ils intègrent directement ces marqueurs d'espace dans le processus d'inférence du modèle, en faisant des éléments organiques de l'inférence. Lorsque le modèle réfléchit, il ne se contente pas de décrire en langage naturel « J'ai vu un chien », mais produit également « J'ai vu un chien, il est ici : [[x1,y1,x2,y2]] ».

Ce mécanisme est appelé par DeepSeek « point while it reasons ».

DeepSeek

Chaque étape de réflexion du modèle est ancrée sur les coordonnées spécifiques de l'image.

Le rapport technique donne cet exemple : le modèle part du point de départ, explore, revient en arrière et réessaie, puis génère une séquence complète de coordonnées, chaque coordonnée correspondant à un point parcouru dans le labyrinthe.

Ainsi, le modèle ne se perdra pas lors de l'inférence. Il ne sera plus confus quant à ce qu'il dit ou à ce qu'il désigne. Chaque objet visuel possède un point d'ancrage spatial clair, rendant le processus d'inférence traçable et vérifiable.

Cette voie technologique offre un intérêtant contraste avec la direction prise par OpenAI.

OpenAI mentionne explicitement le concept de « thinking with images » dans les descriptions officielles de o3 et o4-mini, c'est-à-dire que le modèle peut intégrer des images dans sa chaîne de raisonnement et les traiter par découpage, zoom, rotation, etc. L'accent est mis sur le fait que l'image elle-même devienne une partie intégrante de la chaîne de raisonnement, permettant au modèle de générer de nouvelles images, de les modifier ou d'effectuer des opérations sur elles pendant le processus de raisonnement.

La feuille de route d'OpenAI met l'accent sur les capacités générales, avec la vision, le code, la recherche, les fichiers et l'appel d'outils travaillant ensemble. Le modèle possède une « plateforme visuelle » puissante, capable de gérer de manière flexible diverses tâches visuelles.

La approche de DeepSeek est un peu plus « symbolique ». Elle intègre les coordonnées dans la chaîne de raisonnement. Le modèle écrit explicitement les coordonnées des boîtes englobantes et des points dans le texte de raisonnement, transformant les objets visuels en points d'ancrage réutilisables pendant le raisonnement.

Cela entraîne la situation où le raisonnement visuel d'OpenAI se produit en interne, et les utilisateurs ne voient que la réponse finale et les explications nécessaires, tandis que le processus intermédiaire de traitement visuel reste une boîte noire. DeepSeek, en revanche, rend explicitement visibles les points d'ancrage visuels intermédiaires, rendant entièrement transparent le processus de raisonnement.

En faisant cela, DeepSeek permet un apprentissage, une vérification et une notation plus faciles du processus d'inférence. Cela facilite également la conception de récompenses au niveau du format, de la qualité et de la tâche. En particulier pour des tâches comme les labyrinthes ou le suivi de trajets, il est possible de fournir des retours plus précis sur la légalité du chemin, la couverture de la trajectoire, etc.

Le modèle n'a pas seulement appris à produire des réponses correctes, mais aussi à raisonner en utilisant des éléments visuels.

02 L'efficacité est la clé

Un détail facile à négliger mais extrêmement important dans ce rapport de DeepSeek est que leur modèle utilise un nombre de tokens bien inférieur à celui des autres modèles de pointe lorsqu'il traite des images.

Le rapport contient un graphique comparatif montrant le nombre de tokens consommés par différents modèles lors du traitement d'une image de résolution 800×800.

Gemini-3-Flash environ 1100, Claude-Sonnet-4.6 environ 870, GPT-5.4 environ 740, Qwen3-VL environ 660, DeepSeek environ 361, et ne conserve que environ 90 entrées dans le cache KV.

Cet écart n'est pas minime. DeepSeek utilise un nombre de tokens seulement un tiers de celui de Gemini, et les entrées de cache KV sont environ un dixième.

Comment cette efficacité extrême est-elle réalisée ?

DeepSeek utilise un mécanisme appelé « Compression de l'attention clairsemée » (Compressed Sparse Attention, CSA).

Vous pouvez le comprendre ainsi : si vous montrez à un ami une photo de famille, vous ne direz pas « À partir du 237e pixel à gauche, il y a une zone rouge… », vous direz simplement « À gauche, c’est ma mère, à droite, c’est mon père ».

DeepSeek-ViT d'abord réduit l'image en un nombre plus faible de tokens visuels, puis CSA compresse davantage la représentation de ces tokens visuels dans le cache KV.

Ce mécanisme a déjà été utilisé sur le modèle DeepSeek-V4-Flash et est désormais appliqué au domaine multimodal visuel.

Le processus de compression est le suivant : une image de 756 × 756 pixels, contenant 571 536 pixels, est d'abord traitée par ViT, divisée en patches de taille 14 × 14, générant 2 916 patch tokens. Ensuite, une compression spatiale 3 × 3 est appliquée, regroupant chaque ensemble de 9 tokens adjacents le long de la dimension des canaux en un seul token, résultant en 324 tokens visuels.

Ces 324 tokens sont introduits dans le modèle de langage à grande échelle pour le pré-remplissage. Enfin, le mécanisme CSA compresse ces tokens visuels dans le cache KV par un facteur de 4, ne conservant finalement que 81 entrées.

De 571536 pixels à 81 entrées de cache KV, le taux de compression global atteint 7056 fois.

Les grandes entreprises d'IA utilisent généralement des méthodes intensives en ressources de calcul, tandis que DeepSeek opère des choix au niveau de la théorie de l'information, en conservant uniquement les informations les plus intuitives et compréhensibles.

Son résultat le plus direct est que la vitesse d'inférence a considérablement augmenté.

Le nombre de tokens d'image influence directement la latence d'inférence du modèle. Pendant le processus de génération autoregressive, chaque fois qu'un nouveau token est généré, le modèle doit effectuer un calcul d'attention sur le cache KV de tous les tokens précédents. Si l'image occupe 1000 tokens, chaque génération nécessite une attention sur ces 1000 tokens. Si elle n'en occupe que 90, la charge de calcul diminue considérablement.

Pour les scénarios nécessitant une réponse en temps réel, tels que la vision robotique, la conduite autonome et l'analyse vidéo en temps réel, l'amélioration de la vitesse d'inférence joue un rôle déterminant.

Et il utilise également moins de mémoire.

Le cache KV est un goulot d'étranglement mémoire dans l'inférence des grands modèles. En particulier lors du traitement de contextes longs ou d'inférences par lots, le cache KV consomme une grande quantité de mémoire vidéo. DeepSeek compresse le cache KV des tokens visuels à 90 entrées, ce qui permet de traiter davantage d'images ou des dialogues en plusieurs étapes plus longs sur le même matériel.

Cela est crucial pour le déploiement réel. De nombreuses entreprises voient leurs modèles multimodaux performer bien en laboratoire, mais rencontrent des problèmes de coût lors du déploiement réel. Plus une image consomme de tokens, plus le coût d'inférence augmente et moins d'utilisateurs simultanés peuvent être pris en charge. L'avantage d'efficacité de DeepSeek sera amplifié lors du déploiement à grande échelle.

Cela augmente également indirectement la capacité contextuelle du modèle.

Si une image occupe 1000 tokens, alors dans une fenêtre de contexte de 128k, on ne peut placer que plus de 100 images. Si elle n'occupe que 300 tokens, on peut en placer plus de 400. Cela est crucial pour les scénarios nécessitant la gestion de conversations à plusieurs images, l'analyse de longues vidéos ou la compréhension de nombreux documents.

Les modèles de DeepSeek peuvent traiter un plus grand nombre d'images dans une seule conversation, permettant de comparer et d'analyser des dizaines, voire des centaines d'images, ainsi que de suivre les évolutions à long terme dans les vidéos.

Le coût d'entraînement est le plus important.

Bien que le rapport se concentre principalement sur l'efficacité d'inférence, ce mécanisme de compression est également efficace pendant la phase d'entraînement. Moins de tokens visuels signifient un graphe de calcul plus petit, une vitesse d'entraînement plus rapide et des exigences matérielles réduites.

DeepSeek est réputé pour « obtenir de meilleurs résultats avec moins de ressources ». Que ce soit à travers l'entraînement par apprentissage par renforcement de R1, l'architecture MoE de V4, ou maintenant la multimodalité visuelle, cette philosophie axée sur l'efficacité reste constante.

Mais il y a un problème crucial : la compression entraîne-t-elle une perte d'informations ?

DeepSeek n'a pas nié que la compression entraîne une perte d'information. Son affirmation est que, sur cet ensemble de tâches de raisonnement spatial et de comptage, la représentation compressée reste suffisamment efficace.

Chaque étape de compression conserve les informations les plus importantes pour l'inférence, tout en éliminant les redondances et le bruit.

En fait, le mécanisme de primitives visuelles de DeepSeek mentionné précédemment est lui aussi une forme de compression d'information. Une boîte englobante peut localiser précisément un objet avec seulement 4 chiffres, et un point peut marquer une position avec seulement 2 chiffres. Ces symboles discrets portent une densité d'information bien supérieure à celle des pixels bruts.

Les résultats expérimentaux montrent que cette compression n'a pas altéré les performances, et a même amélioré certains résultats.

Cela indique que, pour de nombreuses tâches de raisonnement visuel, le goulot d'étranglement ne réside pas dans une vision insuffisamment claire, mais dans l'absence d'un mode de représentation approprié.

Cet avantage d'efficacité démontre également que l'intelligence multimodale n'exige pas nécessairement des modèles plus grands, plus de puissance de calcul ou des coûts plus élevés.

Depuis sa création à l'heure DeepSeek, cette entreprise a toujours suivi une ligne directrice cachée : « La véritable intelligence ne réside pas dans la puissance de calcul, mais dans la compréhension de la nature même des problèmes ».

Lorsque vous comprenez réellement ce dont le raisonnement visuel a besoin, vous n'avez pas besoin de tant de tokens. Lorsque vous trouvez la bonne représentation, vous n'avez pas besoin d'un modèle aussi grand.

From this perspective, DeepSeek’s extreme efficiency is not the goal, but a byproduct. The real goal is to find the correct paradigm for visual reasoning. Efficiency merely proves that this paradigm is correct.

03 Choses inachevées

DeepSeek a listé honnêtement, dans la section sur les limites du rapport, plusieurs problèmes liés à la méthode actuelle. Ces problèmes ne sont pas de simples imperfections techniques, mais pointent vers la prochaine étape du raisonnement visuel.

La première question est la dépendance aux mots déclencheurs.

Le rapport indique clairement que la capacité actuelle de « penser avec des primitives visuelles » nécessite des mots déclencheurs explicites pour être activée. Autrement dit, le modèle ne peut pas encore décider naturellement et autonomement « quand tracer des cadres ou des points ».

Cela signifie que le modèle n'a pas encore appris à déterminer quand il faut utiliser des primitives visuelles et quand le langage suffit.

Idéalement, le modèle devrait être capable de prendre des décisions autonomes en fonction de la nature de la tâche. Mais lorsque l'utilisateur demande « Compte le nombre de chiens dans l'image », le modèle devrait basculer automatiquement en mode primitives visuelles pour aider à compter à l'aide de cadres délimitants.

Sur le plan technique, cela nécessite la mise en place d'une couche de métacognition dans le modèle. Cette couche de métacognition peut évaluer la complexité de la tâche actuelle, déterminer si le raisonnement linguistique pur est suffisant, et décider s'il est nécessaire d'appeler des primitives visuelles.

DeepSeek n'a pas encore implémenté cette couche de métacognition, mais ils ont déjà défini la direction. Les futures versions pourraient permettre au modèle d'apprendre à décider automatiquement de ses stratégies d'inférence, plutôt que de dépendre de déclencheurs externes.

Le deuxième problème est la limite de résolution.

Le rapport indique que, en raison des limitations de la résolution d'entrée, le modèle ne performe pas encore suffisamment bien dans les scénarios à granularité fine, et les primitives visuelles produites sont parfois imprécises.

Cette question est liée à la stratégie d'efficacité de DeepSeek. Pour contrôler le nombre de tokens, ils limitent la plage de tokens visuels entre 81 et 384. Les images dépassant cette plage sont redimensionnées.

Ce design est raisonnable dans la plupart des scénarios, mais il rencontre des limites dans certaines tâches exigeant une très haute précision. Par exemple, l'analyse d'images médicales nécessite de détecter des lésions minuscules, et le contrôle qualité industriel exige de repérer des défauts infimes ; ces scénarios imposent des exigences élevées en matière de résolution.

DeepSeek mentionne dans son rapport que ce problème peut être résolu en intégrant les méthodes à haute résolution existantes. Autrement dit, leur cadre de primitives visuelles et les méthodes traditionnelles de recadrage à haute résolution ne sont pas opposées, mais complémentaires.

Je pense que DeepSeek pourrait proposer une solution hybride.

Pour la plupart des tâches courantes, utilisez des représentations visuelles compressées et un raisonnement basé sur des primitives visuelles pour maintenir une haute efficacité. Pour les régions locales nécessitant une analyse fine, appelez dynamiquement des rognages à haute résolution afin d’extraire des informations visuelles plus détaillées. Cela préserve à la fois l’efficacité globale et répond aux exigences de précision locale.

La clé de ce schéma hybride est de permettre au modèle d'apprendre à déterminer quelles zones nécessitent un traitement à haute résolution. Cela ramène donc à la question métacognitive mentionnée précédemment.

La troisième question est la généralisation inter-scénarios.

Le rapport indique qu'il reste difficile d'utiliser des points comme primitives visuelles pour résoudre des problèmes de raisonnement topologique complexe, et que la capacité de généralisation du modèle entre scénarios est limitée.

Ce problème est particulièrement visible dans les tâches de navigation dans un labyrinthe et de suivi de trajet. Bien que DeepSeek ait atteint des taux de précision de 66,9 % et 56,7 % sur son propre jeu de tests, dépassant ainsi les autres modèles, ces chiffres restent insuffisants.

Plus important, ces tâches ont été entraînées et testées sur des données synthétiques. Les labyrinthes sont générés algorithmiquement, et les courbes de suivi de chemin sont tracées de manière procédurale. Lorsque le modèle est confronté à des problèmes de raisonnement topologique dans le monde réel, comme planifier un itinéraire sur une carte réelle ou suivre des connexions dans un schéma de tuyauterie complexe, ses performances pourraient diminuer.

La méthode de DeepSeek consiste à améliorer la capacité de généralisation à l'aide de données à grande échelle et à haute diversité. Ils ont rassemblé 97 984 sources de données, en ont conservé 31 701 après un filtrage rigoureux, et ont finalement obtenu plus de 40 millions d'échantillons. Pour les tâches de labyrinthe et de suivi de trajet, ils ont également conçu diverses topologies, styles visuels et niveaux de difficulté afin de couvrir le plus grand nombre possible de variations.

Cependant, la diversité des données n'est qu'une partie de la capacité de généralisation. Le modèle comprend-il véritablement la nature du raisonnement topologique, ou se contente-t-il de mémoriser les motifs présents dans les données d'entraînement ?

De plus, les primitives visuelles de DeepSeek constituent un nouveau système de représentation, nécessitant des formats de données spécifiques, des processus d'entraînement et des méthodes d'évaluation. Elles ne sont pas entièrement compatibles avec l'écosystème multimodal existant.

La plupart des jeux de données multimodaux et des benchmarks d'évaluation sont conçus selon le paradigme traditionnel « image + texte » et ne prennent pas en compte les éléments visuels. Pour évaluer les modèles de DeepSeek sur ces benchmarks, il faut soit désactiver la fonctionnalité des éléments visuels, soit réviser les méthodes d'évaluation.

Les autres chercheurs qui souhaitent reproduire ou améliorer ce travail doivent reconstruire l'ensemble du processus de données et d'entraînement, ce qui représente un seuil élevé.

DeepSeek peut aborder ces questions dans son rapport, ce qui montre qu'il a une conscience claire de son travail.

Cela peut être plus précieux que de fournir une réponse parfaite. Car ce qui pousse réellement la société à progresser, ce sont souvent les questions, et non les réponses.