Artículo | LetraAI
El día anterior al feriado del Día Internacional del Trabajo, DeepSeek lanzó repentinamente un informe sobre tecnología multimodal visual.
Antes de hacer clic, tenía cierta expectativa: simplemente ver hasta qué punto y con qué claridad.
Después de todo, durante el último año, los modelos multimodales han estado compitiendo en esta dirección. OpenAI habla de pensar con imágenes, permitiendo que el modelo recorte, amplíe y gire imágenes durante el proceso de razonamiento; Gemini y Claude también están buscando formas de permitir que los modelos procesen entradas visuales de mayor resolución y más complejas.
La suposición común es que, cuanto más detallado vea el modelo, más fuerte será la razonamiento visual.
Pero al revisar el informe de DeepSeek, descubrirás que han seguido un camino completamente diferente.
DeepSeek no se centró en "hacer que el modelo vea más píxeles", sino en un problema más fundamental.
Aunque el modelo ya haya visto claramente, ¿cómo puedes asegurar que el modelo y tú se refieren a la misma cosa?
En realidad, este es el punto ciego más ignorado en el razonamiento multimodal.
Cuando los humanos miran una imagen, pueden usar el dedo para marcar objetos. Por ejemplo, "esta persona es tal y cual", "esa persona es tal y cual". Pero ¿cómo sabe el modelo a cuál te refieres?
El modelo solo puede usar el lenguaje para decir "el de la izquierda", "el de arriba", "esta línea". Una vez que la imagen se vuelve compleja, la referencia lingüística se desplaza y el razonamiento también se derrumba.
Entonces DeepSeek dijo: ¿por qué no le damos al modelo un “dedo”?
Convierte los puntos y los cuadros delimitadores en unidades básicas para que el modelo pueda razonar mientras señala el objeto con este dedo cibernético.
01 De la visión continua a los símbolos discretos
DeepSeek en este informe técnico plantea una pregunta muy interesante. Consideran que lo realmente difícil de los modelos multimodales no es ver la imagen, sino mantener una referencia estable al mismo objeto visual durante el proceso de razonamiento continuo.
Por ejemplo, le dices a tu amigo: "En el mercado, los vegetales del puesto de la señora Zhang son los más frescos". Pero en el mercado hay demasiados ancianos, ¿cuál es la señora Zhang?
Pero si apuntas directamente con el dedo y dices “ese”, tu amigo lo entenderá al instante.
DeepSeek denomina a este problema "Brecha de referencia".
En el último año, casi todos los modelos multimodales de vanguardia han abordado el problema de la "brecha de percepción" (Perception Gap).
Supón que tienes una foto frente a ti; si la imagen está demasiado borrosa o tiene una resolución demasiado baja, es posible que no puedas leer el texto pequeño ni ver los detalles lejanos. Lo mismo ocurre con la IA: si la calidad de la imagen de entrada es insuficiente o el proceso es incorrecto, la IA “no verá con claridad”, y esto se denomina brecha perceptual.
Los modelos GPT, Claude y Gemini continúan mejorando la resolución, introduciendo recortes de alta resolución, bloques dinámicos y procesamiento multiescala con el objetivo de permitir que los modelos vean más detalles.
Este enfoque ciertamente tiene valor, pero DeepSeek señala en el informe que, incluso si el modelo ve con claridad, aún puede experimentar colapsos lógicos en tareas complejas de razonamiento espacial.
El problema radica en el lenguaje natural mismo.
En la foto hay docenas de perros, y si dices "el perro de la izquierda", el modelo no podrá entender a cuál te refieres exactamente.
Hay algo aún más complicado: si le pides al modelo que cuente la cantidad de perros en la foto, es fácil que se pierda durante el proceso de razonamiento y no recuerde cuáles ya contó y cuáles aún no.
El informe también mencionó situaciones extremas como la navegación en un laberinto, donde el lenguaje puro no puede describir con precisión rutas de formas irregulares y relaciones topológicas complejas.
El lenguaje, como herramienta de referencia, es inherentemente ambiguo en un espacio visual continuo. Es eficaz con conceptos abstractos y relaciones causales, pero tiene limitaciones fundamentales en la expresión de ubicación espacial y relaciones topológicas.
DeepSeek es un modelo de lenguaje general, ¿cómo se debería resolver esto?
Así surgió el "dedo" mencionado al inicio del artículo.
El concepto central que proponen son los "primitivos visuales" (Visual Primitives), es decir, elevar los dos marcadores espaciales más básicos en la visión por computadora —los cuadros delimitadores (bounding boxes) y los puntos (points)— a la categoría de "unidades mínimas del pensamiento".
Los modelos multimodales anteriores podían marcar cuadros alrededor de los objetos, pero solo te mostraban el resultado final, demostrando “lo encontré”. Como en un examen, solo entregas la respuesta sin mostrar el proceso de resolución.
Algunos estudios también han permitido que la IA dibuje cuadros durante su proceso de pensamiento, pero el objetivo es solo “ver con más precisión”; los cuadros son simplemente una herramienta auxiliar. Es como usar papel para bocetos al resolver problemas matemáticos: el papel solo te ayuda a calcular con más claridad, pero no forma parte del razonamiento para resolver el problema.
DeepSeek va a hacer algo completamente diferente.
Ellos incrustan directamente estas marcas de espacio en el proceso de inferencia del modelo, convirtiéndolas en componentes orgánicos de la inferencia. Cuando el modelo piensa, no solo describe con lenguaje "Vi un perro", sino que también genera simultáneamente "Vi un perro, está aquí: [[x1,y1,x2,y2]]".
Este mecanismo es llamado por DeepSeek "point while it reasons".

Cada paso del modelo está anclado en las coordenadas específicas de la imagen.
El informe técnico proporciona solo este ejemplo: el modelo parte desde el punto de inicio, explora, retrocede y vuelve a intentar, finalmente generando una secuencia completa de coordenadas, donde cada coordenada corresponde a un punto recorrido en el laberinto.
De esta manera, el modelo no se perderá durante el proceso de inferencia. No se confundirá sobre lo que está diciendo o a qué se refiere. Cada objeto visual tiene un punto de anclaje espacial claro, lo que hace que el proceso de inferencia sea rastreable y verificable.
Esta línea técnica forma una interesante comparación con la dirección de OpenAI.
OpenAI menciona explícitamente el concepto de "pensar con imágenes" en las descripciones oficiales de o3 y o4-mini, es decir, el modelo puede incorporar imágenes en la cadena de razonamiento y procesarlas mediante recorte, ampliación, rotación, entre otros métodos. El enfoque de esta dirección consiste en hacer que la imagen misma forme parte de la cadena de pensamiento, permitiendo que el modelo genere, modifique o realice operaciones sobre imágenes durante el proceso de razonamiento.
La hoja de ruta de OpenAI enfatiza las capacidades generales, con visión, código, búsqueda, archivos y llamadas a herramientas que trabajan juntos. El modelo posee una poderosa "plataforma visual" que puede manejar flexiblemente diversas tareas visuales.
La ruta de DeepSeek es un poco más “simbólica”. Permite que las coordenadas ingresen en la cadena de pensamiento. El modelo escribe explícitamente las coordenadas de los cuadros delimitadores y los puntos en el texto de razonamiento, convirtiendo los objetos visuales en puntos de anclaje reutilizables durante el razonamiento.
Esto hace que el razonamiento visual de OpenAI ocurra internamente, y los usuarios solo pueden ver la respuesta final y las explicaciones necesarias, mientras que el proceso intermedio de procesamiento visual es una caja negra. DeepSeek, en cambio, hace explícitos intencionadamente los puntos de anclaje visuales intermedios, haciendo que todo el proceso de razonamiento sea completamente transparente.
Hacer esto con DeepSeek tiene la ventaja de que el proceso de razonamiento es más fácil de entrenar, revisar y calificar. También facilita el diseño de recompensas a nivel de formato, calidad y tarea. En particular, en tareas como laberintos o seguimiento de rutas, se pueden proporcionar retroalimentaciones más detalladas sobre la legalidad de la ruta, la cobertura de la trayectoria, entre otros.
El modelo no solo aprendió a generar respuestas correctas, sino también cómo razonar utilizando elementos visuales.
02 La eficiencia es lo fundamental
En este informe de DeepSeek hay un detalle fácil de pasar por alto pero extremadamente importante: su modelo utiliza una cantidad mucho menor de tokens al procesar imágenes en comparación con otros modelos de vanguardia.
En el informe hay una gráfica comparativa que muestra la cantidad de tokens consumidos por diferentes modelos al procesar una imagen de resolución 800×800.
Gemini-3-Flash aproximadamente 1100, Claude-Sonnet-4.6 aproximadamente 870, GPT-5.4 aproximadamente 740, Qwen3-VL aproximadamente 660, DeepSeek aproximadamente 361, y solo se mantienen aproximadamente 90 entradas en la caché KV.
Esta diferencia no es pequeña. DeepSeek utiliza solo un tercio de los tokens que Gemini, y las entradas de caché KV son aproximadamente una décima parte.
¿Cómo se logra esta eficiencia extrema?
DeepSeek utiliza un mecanismo llamado "Atención Compacta y Escasa" (Compressed Sparse Attention, CSA).
Puedes entenderlo así: si le muestras a un amigo una foto familiar, no dirás “comenzando en el píxel 237 desde la izquierda hay una región roja...”, sino que dirás directamente “a la izquierda está mi mamá, a la derecha está mi papá”.
DeepSeek-ViT primero comprime la imagen en menos tokens visuales, y luego CSA comprime aún más la representación de estos tokens visuales en la caché KV.
Este mecanismo ya se utilizó en el modelo DeepSeek-V4-Flash y ahora se aplica al dominio visual multimodal.
El proceso de compresión es el siguiente. Una imagen de 756×756 contiene 571536 píxeles. Estos píxeles se procesan primero mediante ViT, dividiéndolos en parches de tamaño 14×14, generando 2916 patch tokens. Luego se realiza una compresión espacial 3×3, comprimiendo cada 9 tokens adyacentes a lo largo de la dimensión del canal en 1 solo token, resultando en 324 tokens visuales.
Estos 324 tokens se ingresan en el modelo de lenguaje grande para la prellena. Finalmente, el mecanismo CSA comprime estos tokens visuales en la caché KV otras 4 veces, conservando finalmente solo 81 entradas.
De 571536 píxeles a 81 entradas de caché KV, la relación de compresión total alcanza 7056 veces.
Las grandes empresas de IA suelen utilizar métodos intensivos en recursos computacionales, mientras que DeepSeek realiza selecciones a nivel de teoría de la información, conservando únicamente la información más intuitiva y comprensible.
Su resultado más directo es que la velocidad de inferencia se ha acelerado mucho.
El número de tokens de imagen afecta directamente la latencia de inferencia del modelo. Durante el proceso de generación autoregresiva, cada vez que se genera un nuevo token, el modelo debe realizar cálculos de atención sobre el caché KV de todos los tokens anteriores. Si la imagen ocupa 1000 tokens, cada generación requiere atención sobre estos 1000 tokens. Si solo ocupa 90, la carga de cálculo se reduce significativamente.
Para escenarios de aplicación que requieren respuesta en tiempo real, como visión robótica, conducción autónoma y análisis de video en tiempo real, el aumento de la velocidad de inferencia juega un papel decisivo.
Y también ocupa menos memoria.
La caché KV es un cuello de botella de memoria en la inferencia de modelos grandes. Especialmente al procesar contextos largos o inferencia por lotes, la caché KV consume una gran cantidad de memoria VRAM. DeepSeek comprime la caché KV de los tokens visuales a 90 entradas, lo que significa que se pueden procesar más imágenes o diálogos multironda más largos en el mismo hardware.
Esto es muy importante para la implementación real. Muchos modelos multimodales de empresas funcionan bien en el laboratorio, pero al implementarlos en la práctica enfrentan problemas de costo. Cuantos más tokens consuma cada imagen, mayor será el costo de inferencia y menor será el número de usuarios simultáneos que se puedan soportar. La ventaja de eficiencia de DeepSeek se amplifica durante la implementación a gran escala.
También aumenta indirectamente la capacidad de contexto del modelo.
Si una imagen ocupa 1000 tokens, entonces en una ventana de contexto de 128k solo se pueden incluir más de 100 imágenes. Si solo ocupa 300 tokens, se pueden incluir más de 400. Esto es crucial para escenarios que requieren procesar diálogos con múltiples imágenes, análisis de videos largos o comprensión de grandes cantidades de documentos.
Los modelos de DeepSeek pueden procesar más imágenes en una sola conversación, comparar y analizar decenas e incluso cientos de imágenes, y rastrear cambios a largo plazo en videos.
Lo más importante es el costo de entrenamiento.
Aunque el informe se centra principalmente en la eficiencia de inferencia, este mecanismo de compresión también es efectivo durante la fase de entrenamiento. Menos tokens visuales significan un grafo de cálculo más pequeño, una velocidad de entrenamiento más rápida y requisitos de hardware más bajos.
DeepSeek ha sido conocido por "lograr mejores resultados con menos recursos". Desde el entrenamiento por aprendizaje por refuerzo de R1, hasta la arquitectura MoE de V4, y ahora la multimodalidad visual, esta filosofía orientada a la eficiencia ha prevalecido constantemente.
Pero aquí hay una pregunta clave. ¿La compresión causa pérdida de información?
DeepSeek no niega que la compresión conlleva pérdida de información. Su afirmación es que, en este conjunto de tareas de razonamiento espacial y conteo, las representaciones comprimidas siguen siendo suficientemente efectivas.
Cada paso de compresión conserva la información más importante para la inferencia y elimina el exceso y el ruido.
De hecho, el mecanismo de primitivas visuales de DeepSeek mencionado anteriormente también es una forma de compresión de información. Un cuadro delimitador puede ubicar precisamente un objeto con solo 4 números, y un punto puede marcar una posición con solo 2 números. Estos símbolos discretos transportan una densidad de información mucho mayor que los píxeles originales.
Según los resultados experimentales, esta compresión no perjudica el rendimiento, sino que mejora el desempeño en ciertas tareas.
This suggests that for many visual reasoning tasks, the bottleneck is not seeing clearly enough, but rather not finding the right representation.
Esta ventaja de eficiencia también demuestra que la inteligencia multimodal no necesita necesariamente modelos más grandes, más potencia de cómputo o mayores costos.
Desde el nacimiento del momento DeepSeek, esta empresa ha mantenido una línea oculta: “La verdadera inteligencia no radica en el poder de cómputo, sino en la comprensión de la esencia del problema”.
Cuando realmente entiendes qué requiere el razonamiento visual, ya no necesitas tantos tokens. Cuando encuentras la representación adecuada, ya no necesitas un modelo tan grande.
Desde este punto de vista, la eficiencia extrema de DeepSeek no es el objetivo, sino un subproducto. El verdadero objetivo es encontrar el paradigma correcto para la razonamiento visual. La eficiencia simplemente demuestra que este paradigma es correcto.
03 Asuntos pendientes
DeepSeek, en la sección de limitaciones del informe, enumera con honestidad varios problemas con el método actual. Estos problemas no son pequeñas imperfecciones técnicas, sino que apuntan hacia la siguiente etapa del razonamiento visual.
El primer problema es la dependencia de palabras de activación.
El informe especifica claramente que la capacidad actual de "pensar con primitivos visuales" requiere palabras de activación explícitas para funcionar. Es decir, el modelo aún no puede decidir de forma natural y autónoma "cuándo dibujar cuadros o marcar puntos".
Significa que el modelo aún no ha aprendido realmente cuándo necesitar usar primitivas visuales y cuándo es suficiente con el lenguaje.
Lo ideal es que el modelo tome decisiones autónomas según la naturaleza de la tarea. Pero cuando el usuario pregunte “¿cuántos perros hay en la imagen?”, el modelo debe cambiar automáticamente al modo de primitivas visuales, utilizando cuadros delimitadores para ayudar en el conteo.
Técnicamente, esto requiere establecer una capa de metacognición dentro del modelo. Esta capa de metacognición puede evaluar la complejidad de la tarea actual, determinar si el razonamiento lingüístico puro es suficiente y decidir si es necesario invocar primitivas visuales.
DeepSeek aún no ha implementado esta capa de metacognición, pero ya han definido la dirección. Las versiones futuras podrían permitir que el modelo aprenda a decidir automáticamente las estrategias de razonamiento, en lugar de depender de disparadores externos.
El segundo problema es la limitación de resolución.
El informe señala que, debido a la limitación de la resolución de entrada, el modelo no se desempeña lo suficientemente bien en escenarios de granularidad fina, y los primitivos visuales generados a veces no son lo suficientemente precisos.
Este problema está relacionado con la estrategia de eficiencia de DeepSeek. Para controlar el número de tokens, limitan el rango de tokens visuales entre 81 y 384. Las imágenes que exceden este rango se escalan.
Este diseño es razonable en la mayoría de los escenarios, pero presenta limitaciones en tareas que requieren una precisión extremadamente alta. Por ejemplo, el análisis de imágenes médicas necesita identificar lesiones pequeñas, y la inspección industrial requiere detectar defectos sutiles; estos escenarios exigen una alta resolución.
DeepSeek menciona en el informe que este problema se puede resolver integrando los métodos de alta resolución existentes. Es decir, su marco de primitivas visuales y los métodos tradicionales de recorte de alta resolución no son opuestos, sino complementarios.
Creo que DeepSeek podría lanzar una solución híbrida.
Para la mayoría de las tareas convencionales, se utiliza una representación visual comprimida y un razonamiento basado en primitivas visuales para mantener una alta eficiencia. Para las regiones locales que requieren un análisis de granularidad fina, se invocan dinámicamente recortes de alta resolución para extraer información visual más detallada. De esta manera, se mantiene la eficiencia general mientras se satisfacen las necesidades de precisión local.
La clave de este enfoque híbrido es hacer que el modelo aprenda a determinar qué áreas requieren procesamiento de alta resolución. Por lo tanto, esto vuelve a plantear la cuestión de la metacognición mencionada anteriormente.
La tercera pregunta es la generalización entre escenarios.
El informe señala que seguir siendo difícil resolver problemas de razonamiento topológico complejo utilizando puntos como primitivas visuales, y que la capacidad de generalización del modelo entre escenarios es limitada.
Este problema se hace más evidente en tareas de navegación en laberintos y seguimiento de rutas. Aunque DeepSeek alcanzó una precisión del 66,9% y 56,7% en su propio conjunto de pruebas, superando a otros modelos, estos números aún no son suficientes.
Más importante aún, estas tareas se entrenaron y probaron con datos sintéticos. Los laberintos se generaron algorítmicamente, y las curvas de seguimiento de rutas también se dibujaron programáticamente. Cuando el modelo se enfrenta a problemas de razonamiento topológico en el mundo real, como planificar rutas en mapas reales o rastrear conexiones en diagramas de tuberías complejas, su rendimiento podría disminuir.
El enfoque de DeepSeek consiste en mejorar la capacidad de generalización mediante datos a gran escala y alta diversidad. Rastrearon 97.984 fuentes de datos, tras un filtrado estricto conservaron 31.701, y finalmente obtuvieron más de 40 millones de muestras. En tareas de laberintos y seguimiento de rutas, también diseñaron diversas topologías, estilos visuales y niveles de dificultad para cubrir la mayor cantidad posible de variaciones.
Sin embargo, la diversidad de los datos es solo una parte de la capacidad de generalización. ¿Realmente comprende el modelo la esencia del razonamiento topológico, o simplemente ha memorizado los patrones de los datos de entrenamiento?
Además, los elementos visuales de DeepSeek son un nuevo sistema de representación que requiere formatos de datos específicos, procesos de entrenamiento y métodos de evaluación. Esto no es completamente compatible con el ecosistema multimodal existente.
La mayoría de los conjuntos de datos y benchmarks multimodales están diseñados según el paradigma tradicional de "imagen + texto" y no consideran los primitivos visuales. Si se desea evaluar los modelos de DeepSeek en estos benchmarks, se debe desactivar la función de primitivos visuales o rediseñar los métodos de evaluación.
Otros investigadores que deseen reproducir o mejorar este trabajo deben reconstruir todo el flujo de datos y entrenamiento, lo que implica una barrera elevada.
DeepSeek puede abordar estos problemas en el informe, lo que demuestra que tienen una conciencia clara de su trabajo.
Esto puede ser más valioso que dar una respuesta perfecta. Porque lo que realmente impulsa el progreso social, a menudo no son las respuestas, sino las preguntas.
