DeepSeek представляет визуальные примитивы для улучшения пространственного мышления ИИ

Статья | LetterAI

За день до праздника 1 мая DeepSeek внезапно опубликовала отчет о визуальной мультимодальной технологии.

Перед тем как открыть, у меня было некоторое представление — речь шла лишь о том, на какое расстояние я смогу видеть и насколько четко.

В конце концов, за последний год мультимодальные модели в основном соревновались в этом направлении. OpenAI говорит о мышлении с изображениями, позволяя модели обрезать, масштабировать и поворачивать изображения в процессе рассуждения; Gemini и Claude также пытаются заставить модели обрабатывать изображения более высокого разрешения и более сложные визуальные входные данные.

Общее предположение состоит в том, что чем более детально модель рассматривает изображения, тем сильнее становится её визуальное рассуждение.

Но, просмотрев отчет DeepSeek, вы поймете, что они полностью выбрали другой путь.

DeepSeek не сосредоточился на «предоставлении модели большего количества пикселей», они обратили внимание на более фундаментальную проблему.

Даже если модель уже всё разглядела, как вы можете быть уверены, что она понимает то же самое, что и вы, в процессе рассуждения?

На самом деле, это самая часто игнорируемая слабая сторона в многомодальном выводе.

Когда люди смотрят на изображение, они могут указывать на объекты пальцем, например: «Этот человек — это кто-то», «Тот человек — это кто-то». Но как модель узнает, о каком именно объекте вы говорите?

Модель может использовать язык только для обозначения «левый», «верхний», «эта линия». Как только изображение становится сложным, языковые указания начинают сбиваться, и рассуждения также рушатся.

Тогда DeepSeek сказал: а почему бы просто не дать модели один «пальчик»?

Он превращает точки и ограничивающие рамки в базовые единицы мышления модели, позволяя модели рассуждать, пока указывает на объект этой кибер-пальцем.

01 От непрерывного визуального к дискретным символам

DeepSeek в этом техническом отчете поставили интересный вопрос. Они считают, что настоящая сложность мультимодальных моделей заключается не в восприятии изображений, а в стабильном указании на один и тот же визуальный объект в процессе непрерывных рассуждений.

Например, вы говорите своему другу: «На рынке у бабушки Зянь продают самые свежие овощи». Но на рынке слишком много стариков и старушек — какая именно бабушка Зянь?

Но если ты просто укажешь пальцем и скажешь «именно тот», твой друг сразу поймёт.

DeepSeek назвал эту проблему «разрывом ссылок» (Reference Gap).

За последний год почти все передовые мультимодальные модели решали проблему «перцептивного разрыва» (Perception Gap).

Представьте, что перед вами фотография: если она слишком размытая или имеет низкое разрешение, вы можете не разобрать мелкий текст или детали на расстоянии. То же самое и с ИИ — если входное изображение имеет недостаточное качество или неправильно обрабатывается, он «не видит» детали — это и есть восприятийный разрыв.

Модели GPT, Claude, Gemini постоянно повышают разрешение, внедряя высокоразрешающее обрезание, динамическую блочную обработку и многоуровневую обработку, чтобы модель могла видеть больше деталей.

Этот подход, конечно, имеет ценность, но DeepSeek в отчете указал, что даже если модель видит все очень четко, она все еще может испытывать логический сбой при выполнении сложных задач пространственного рассуждения.

Проблема заключается в самом естественном языке.

На фотографии десятки собак, и когда вы говорите «левая собака», модель не может понять, о какой именно собаке идет речь.

Еще хуже то, что если вы попросите модель посчитать количество собак на фотографии, она легко запутается в процессе рассуждения, какие собаки уже были посчитаны, а какие — нет.

Отчет также упоминает такие экстремальные случаи, как навигация по лабиринту, где чистый язык не может точно описать нерегулярные пути и сложные топологические отношения.

Язык как инструмент обозначения по своей природе нечеток в непрерывном визуальном пространстве. Он хорошо справляется с абстрактными понятиями и причинно-следственными связями, но в пространственном позиционировании и топологических отношениях способность языка к выражению имеет фундаментальные ограничения.

DeepSeek сам по себе является универсальной языковой моделью, как тогда решить эту проблему?

Так появился палец, упомянутый в начале статьи.

Их ключевая концепция — «визуальные примитивы» (Visual Primitives), а именно повышение двух самых базовых пространственных маркеров в компьютерном зрении — ограничивающих рамок (bounding boxes) и точек (points) — до «минимальных единиц мышления».

Ранние мультимодальные модели хотя и могли обводить объекты рамками, но просто показывали вам итоговый результат, доказывая «я нашел». Как на экзамене, когда вы сдаете только ответ, не записывая ход решения.

Некоторые исследования позволяют ИИ рисовать рамки в процессе мышления, но цель этого — только «видеть точнее»; рамки служат вспомогательным инструментом. Подобно тому, как вы используете черновик при решении математических задач — черновик помогает вам считать яснее, но не является частью самого решения.

DeepSeek делает совершенно другое.

Они встраивают эти пространственные маркеры непосредственно в процесс вывода модели, превращая их в органическую часть вывода. Когда модель мыслит, она не только описывает на языке «Я вижу собаку», но и одновременно выводит «Я вижу собаку, она здесь: [[x1,y1,x2,y2]]».

Этот механизм DeepSeek называет «указанием во время рассуждения» (point while it reasons).

DeepSeek

Каждый шаг мышления модели привязан к конкретным координатам изображения.

В техническом отчете приведен такой пример: модель начинает с начальной точки, исследует, возвращается и пробует снова, в итоге выводя полный путь координат, где каждая координата соответствует точке, пройденной в лабиринте.

Таким образом, модель не будет теряться в процессе вывода. Она не будет путаться в том, о чем говорит и что имеет в виду. Каждый визуальный объект получил четкую пространственную привязку, и процесс вывода стал отслеживаемым и проверяемым.

Этот технический путь представляет интересное сравнение с направлением OpenAI.

OpenAI в официальном описании o3 и o4-mini прямо упоминает концепцию «мышления с изображениями», то есть модель может включать изображения в цепочку рассуждений и обрабатывать их с помощью обрезки, масштабирования, вращения и других методов. Основное внимание в этом направлении уделяется тому, чтобы изображения сами стали частью цепочки рассуждений, позволяя модели генерировать новые изображения, изменять их и выполнять операции с ними в процессе рассуждения.

План OpenAI акцентирует внимание на универсальных возможностях: визуальные, кодовые, поисковые, файловые и инструментальные вызовы работают вместе. Модель обладает мощной «визуальной рабочей станцией», которая гибко справляется с различными визуальными задачами.

Путь DeepSeek немного более «символичен». Он вводит координаты в цепочку рассуждений. Модель явно записывает координаты ограничивающих рамок и точек в тексте рассуждений, превращая визуальные объекты в повторно используемые опорные точки во время рассуждения.

Это приводит к тому, что визуальные рассуждения OpenAI происходят внутри системы, и пользователи видят только окончательный ответ и необходимые пояснения, а промежуточные этапы визуальной обработки остаются «черным ящиком». DeepSeek намеренно делает промежуточные визуальные якоря явными, обеспечивая полную прозрачность процесса рассуждения.

Такой подход DeepSeek позволяет легче обучать, проверять и оценивать процесс рассуждения. Это также упрощает разработку форматов, наград за качество и наград на уровне задач. Особенно в задачах, таких как лабиринты и отслеживание путей, можно предоставлять более детальную обратную связь по таким аспектам, как допустимость пути и степень покрытия траектории.

Модели научились не только выводить правильные ответы, но и методам рассуждения с использованием визуальных примитивов.

02 Эффективность — это главное

В этом отчете DeepSeek есть одна легко упускаемая, но чрезвычайно важная деталь: их модель использует значительно меньше токенов при обработке изображений по сравнению с другими передовыми моделями.

В отчете есть сравнительный график, показывающий количество токенов, затраченных различными моделями при обработке изображения разрешением 800×800.

Gemini-3-Flash около 1100, Claude-Sonnet-4.6 около 870, GPT-5.4 около 740, Qwen3-VL около 660, DeepSeek около 361, и в KV-кэше сохраняется только около 90 записей.

Этот разрыв не маленький. DeepSeek использует в три раза меньше токенов, чем Gemini, а количество записей KV-кэша — примерно в десять раз меньше.

Как достигается такая высокая эффективность?

DeepSeek использует механизм, называемый «сжатое разреженное внимание» (Compressed Sparse Attention, CSA).

Ты можешь понять это так: если ты показываешь другу семейное фото, ты не скажешь: «Начиная с 237-го пикселя слева есть красная область…», ты скажешь прямо: «Слева — моя мама, справа — мой папа».

DeepSeek-ViT сначала сжимает изображение в меньшее количество визуальных токенов, а CSA дополнительно сжимает представление этих визуальных токенов в кэше KV.

Этот механизм уже использовался в модели DeepSeek-V4-Flash и теперь применяется в визуальной мультимодальности.

Процесс сжатия выглядит следующим образом. Изображение размером 756×756 содержит 571536 пикселей. Эти пиксели сначала обрабатываются с помощью ViT, разделяясь на патчи размером 14×14, что формирует 2916 патч-токенов. Затем применяется пространственное сжатие 3×3: каждые 9 соседних токенов сжимаются по измерению каналов в один токен, в результате чего получается 324 визуальных токена.

Эти 324 токена поступают в крупную языковую модель для предварительного заполнения. В конце механизм CSA дополнительно сжимает эти визуальные токены в KV-кеш в 4 раза, оставляя в итоге только 81 запись.

От 571536 пикселей до 81 записи KV-кэша, общий коэффициент сжатия достиг 7056 раз.

Обычно крупные компании в области ИИ используют методы силового наращивания вычислительных ресурсов, тогда как DeepSeek принимает решения на уровне информационной теории, оставляя только самые интуитивно понятные данные.

Самый прямой результат — это значительно ускоренная скорость вывода.

Количество токенов изображений напрямую влияет на задержку вывода модели. В процессе авторегрессивного генерирования при создании каждого нового токена модель должна выполнять вычисления внимания для KV-кэша всех предыдущих токенов. Если изображение занимает 1000 токенов, то при каждом генерировании необходимо выполнять внимание для этих 1000 токенов. Если же оно занимает только 90, объем вычислений значительно снижается.

Для сценариев применения, требующих реакции в реальном времени, таких как машинное зрение, автономное вождение и анализ видео в реальном времени, повышение скорости вывода играет решающую роль.

И оно занимает мало памяти.

KV-кэш является узким местом по памяти при выводе больших моделей. Особенно при обработке длинных контекстов или пакетного вывода KV-кэш занимает значительный объем видеопамяти. DeepSeek сжимает KV-кэш визуальных токенов до 90 записей, что позволяет обрабатывать больше изображений или более длинные многоэтапные диалоги на том же оборудовании.

Это крайне важно для реального развертывания. Многие компании сталкиваются с проблемами стоимости, когда их мультимодальные модели, показывающие отличные результаты в лаборатории, внедряются в реальных условиях. Чем больше токенов потребляется на каждое изображение, тем выше стоимость вывода и тем меньше пользователей можно обслуживать одновременно. Преимущество DeepSeek в эффективности усиливается при масштабировании развертывания.

Также косвенно увеличивает контекстную емкость модели.

Если изображение занимает 1000 токенов, то в контекстном окне размером 128k можно разместить всего более 100 изображений. Если оно занимает всего 300 токенов, можно разместить более 400. Это критически важно для сценариев, требующих обработки диалогов с несколькими изображениями, анализа длинных видео и понимания большого количества документов.

Модели DeepSeek могут обрабатывать больше изображений в одном диалоге, сравнивать и анализировать десятки甚至 сотни изображений, а также отслеживать долгосрочные изменения в видео.

Самое важное — стоимость обучения.

Хотя отчет в основном посвящен эффективности вывода, такой механизм сжатия также эффективен на этапе обучения. Меньшее количество визуальных токенов означает меньший вычислительный граф, более быструю скорость обучения и более низкие требования к оборудованию.

DeepSeek всегда славился принципом «достигать лучших результатов с меньшими ресурсами». От обучения с подкреплением в R1 до архитектуры MoE в V4 и теперь до визуальной мультимодальности — эта философия приоритета эффективности пронизывает всё.

Но здесь возникает ключевой вопрос. Не приведет ли сжатие к потере информации?

DeepSeek не отрицает, что сжатие приводит к потере информации. Его утверждение заключается в том, что на этом наборе задач пространственного рассуждения и подсчета сжатые представления остаются достаточно эффективными.

Каждый шаг сжатия сохраняет информацию, наиболее важную для вывода, отбрасывая избыточные данные и шум.

На самом деле, механизм визуальных примитивов DeepSeek, упомянутый ранее, также является формой сжатия информации. Один прямоугольник с границами может точно локализовать объект с помощью четырех чисел, а одна точка может обозначить позицию с помощью двух чисел. Эти дискретные символы несут гораздо более высокую плотность информации, чем исходные пиксели.

По результатам экспериментов, такое сжатие не ухудшило производительность, а даже повысило её в некоторых задачах.

Это означает, что для многих задач визуальных рассуждений узким местом является не недостаточная четкость восприятия, а отсутствие подходящего способа представления.

Это преимущество в эффективности также доказывает, что мультимодальный интеллект не обязательно требует более крупных моделей, большей вычислительной мощности или более высоких затрат.

С момента рождения DeepSeek эта компания всегда придерживалась скрытой идеи: «Истинный интеллект заключается не в вычислительной мощности, а в понимании сути проблемы».

Когда вы действительно поймете, что требуется для визуальных рассуждений, вам не понадобится так много токенов. Когда вы найдете подходящий способ представления, вам не понадобится такая большая модель.

С этой точки зрения, крайняя эффективность DeepSeek — не цель, а побочный продукт. Истинная цель — найти правильную парадигму визуальных рассуждений. Эффективность лишь подтверждает, что эта парадигма верна.

03 Незавершенное дело

DeepSeek в разделе ограничений отчета честно перечислил несколько проблем, присущих текущему методу. Эти проблемы не являются незначительными техническими недостатками, а указывают на следующий этап визуальных рассуждений.

Первая проблема — зависимость от триггерных слов.

В отчете четко указано, что текущая способность «думать с использованием визуальных примитивов» требует явных триггерных слов для активации. То есть модель еще не может естественным и автономным образом решать, «когда следует рисовать рамки или ставить точки».

Это означает, что модель еще не научилась определять, когда необходимо использовать визуальные примитивы, а когда достаточно языка.

В идеальном случае модель должна самостоятельно принимать решения в зависимости от характера задачи. Однако, когда пользователь спрашивает «Сколько собак на изображении?», модель должна автоматически переключиться в режим визуальных примитивов и использовать ограничивающие рамки для помощи в подсчете.

Технически это требует создания метакогнитивного слоя в модели. Этот метакогнитивный слой может оценивать сложность текущей задачи, определять, достаточно ли чистого языкового рассуждения, и решать, нужно ли вызывать визуальные примитивы.

DeepSeek пока не реализовал этот метакогнитивный уровень, но они уже определили направление. В будущих версиях модель может научиться самостоятельно выбирать стратегии рассуждения, а не полагаться на внешние триггеры.

Вторая проблема — ограничение разрешения.

Отчет отмечает, что из-за ограничений входного разрешения модель недостаточно хорошо справляется с детализированными сценами, и выводимые визуальные примитивы иногда недостаточно точны.

Этот вопрос связан с стратегией DeepSeek, ориентированной на эффективность. Чтобы контролировать количество токенов, они ограничили диапазон визуальных токенов от 81 до 384. Изображения, выходящие за пределы этого диапазона, масштабируются.

Такой подход является разумным в большинстве сценариев, но может столкнуться с ограничениями в задачах, требующих чрезвычайно высокой точности. Например, анализ медицинских изображений требует выявления мелких очагов заболеваний, а промышленный контроль качества — обнаружения мельчайших дефектов; в этих сценариях предъявляются высокие требования к разрешению.

DeepSeek в отчете упоминает, что эту проблему можно решить за счет интеграции существующих методов высокого разрешения. То есть их фреймворк визуальных примитивов и традиционные методы высокоразрешающего кадрирования не противопоставлены друг другу, а дополняют друг друга.

Я думаю, DeepSeek может предложить гибридное решение.

Для большинства обычных задач используется сжатое визуальное представление и рассуждение на основе визуальных примитивов, что обеспечивает высокую эффективность. Для локальных областей, требующих детального анализа, динамически вызываются высокоразрешающие фрагменты для извлечения более подробной визуальной информации. Это позволяет сохранить общую эффективность и одновременно удовлетворить требования к точности на локальном уровне.

Ключ к этой гибридной схеме заключается в том, чтобы заставить модель учиться определять, какие области требуют обработки с высоким разрешением. Таким образом, мы снова возвращаемся к вопросу метапознания, о котором говорили ранее.

Третья проблема — обобщение между сценариями.

Отчет отмечает, что использование точек в качестве визуальных примитивов для решения сложных задач топологических рассуждений остается трудной задачей, а способность модели к обобщению между сценариями ограничена.

Эта проблема особенно заметна в задачах навигации по лабиринту и отслеживания пути. Хотя DeepSeek достиг точности 66,9% и 56,7% на своем собственном тестовом наборе, превзойдя другие модели, эти цифры все еще недостаточны.

Более того, эти задачи были обучены и протестированы на синтетических данных. Лабиринты генерировались алгоритмически, а кривые отслеживания путей также рисовались программно. Когда модель сталкивается с задачами топологических рассуждений в реальном мире, например, при планировании маршрутов на реальных картах или отслеживании соединений в сложных схемах трубопроводов, её производительность может снизиться.

Метод DeepSeek заключается в повышении обобщающей способности за счет масштабных и высокоразнообразных данных. Они спарсили 97984 источника данных, после строгой фильтрации сохранили 31701, в итоге получив более 40 миллионов образцов. В задачах лабиринта и отслеживания пути они также разработали множество топологий, визуальных стилей и уровней сложности, чтобы охватить как можно больше вариаций.

Однако разнообразие данных — лишь часть обобщающей способности. Понимает ли модель суть топологических рассуждений или она просто запомнила паттерны из обучающих данных?

Кроме того, визуальные примитивы DeepSeek представляют собой новую систему представления, требующую специальных форматов данных, процессов обучения и методов оценки. Они не полностью совместимы с существующей экосистемой мультимодальных моделей.

Большинство мультимодальных наборов данных и оценочных стандартов разработаны на основе традиционной парадигмы «изображение + текст» и не учитывают визуальные примитивы. Если необходимо оценить модель DeepSeek на этих стандартах, либо нужно отключить функцию визуальных примитивов, либо переработать методы оценки.

Другим исследователям, желающим воспроизвести или улучшить эту работу, необходимо заново построить весь процесс сбора данных и обучения, что требует высокого порога входа.

DeepSeek может обсуждать эти вопросы в отчетах, что свидетельствует о четком понимании своей работы.

Это может быть ценнее, чем дать идеальный ответ. Потому что то, что действительно движет прогрессом общества, — это часто не ответы, а вопросы.