DeepSeek вводить візуальні примітиви для покращення просторового мислення ШІ

Автор: LetterAI

За день до святкування Дня праці, DeepSeek раптово опублікував звіт з візуальної багатомодальної технології.

Перед тим як відкрити, у мене було певне очікування — просто побачити, на яку відстань я зможу бачити і наскільки чітко.

За минулий рік мультимодальні моделі в основному зосереджувалися саме на цьому напрямку. OpenAI говорить про міркування з зображеннями, дозволяючи моделі обрізати, збільшувати та обертати зображення в процесі міркування; Gemini та Claude також намагаються забезпечити обробку зображень з вищою роздільною здатністю та більш складними візуальними даними.

Загальна припущення полягає в тому, що, якщо модель буде дивитися детальніше, візуальне міркування автоматично стане сильнішим.

Але, ознайомившись з цим звітом DeepSeek, ви помітите, що вони повністю обрали інший шлях.

DeepSeek не зосереджувався на «наданні моделі більше пікселів», вони звернули увагу на більш фундаментальну проблему.

Навіть якщо модель вже все бачить, як ви можете бути впевнені, що модель розуміє те саме, що й ви, під час міркувань?

Справді, це найбільш зневажений слабкий місце в багатомодальному міркуванні.

Люди, дивлячись на зображення, можуть вказувати на об’єкти пальцем. Наприклад: «Цей людина — це хто-то», «Та людина — це хто-то». Але як модель зрозуміє, про який саме об’єкт ви говорите?

Модель може використовувати мову лише для того, щоб сказати «той зліва», «той зверху», «ця лінія». Коли зображення стає складнішим, мовні посилання починають зміщуватися, і міркування також руйнуються.

Тоді DeepSeek сказав: а що, якщо дати моделі один «пальць»?

Він перетворює точки та обмежувальні рамки на базові одиниці міркувань моделі, дозволяючи моделі одночасно вказувати на об’єкти цією кібер-пальцем та міркувати.

01 Від неперервного візуального до дискретних символів

DeepSeek у цьому технічному звіті поставив цікаве питання. Вони вважають, що справжня складність багатомодальних моделей полягає не в тому, щоб бачити зображення, а в стабільному вказуванні на той самий візуальний об’єкт у процесі послідовних міркувань.

Наприклад, ви кажете своєму другу: «На ринку у бабусі Вань продавали найсвіжіші овочі». Але на ринку дуже багато старих чоловіків і жінок — хто саме ця бабуся Вань?

Але якщо ти прямо вказуєш пальцем і кажеш «ось той», твій друг одразу зрозуміє.

DeepSeek назвав цей питання «розривом посилань» (Reference Gap).

За останній рік майже всі сучасні мультимодальні моделі вирішували проблему «перцепційного розриву» (Perception Gap).

Якщо перед вами знаходиться фотографія, яка занадто розмита або має низьку роздільну здатність, ви можете не бачити дрібний текст або деталі на відстані. З AI те саме: якщо вхідне зображення має недостатню якість або неправильно обробляється, воно «не бачить» — це й є перцепційний розрив.

Моделі GPT, Claude, Gemini постійно підвищують роздільну здатність, впроваджуючи високороздільне обрізання, динамічне розбиття на блоки та багатомасштабну обробку, щоб моделі могли бачити більше деталей.

Цей напрямок, звичайно, має цінність, але DeepSeek у звіті зазначив, що навіть якщо модель дуже добре бачить, вона все ще може стикатися з логічними збоями у складних завданнях просторового міркування.

Проблема в самій природній мові.

На фотографії десятки собак, і коли ви кажете «ліва собака», модель не зможе зрозуміти, про яку саме собаку йде мова.

Є ще більш дивні випадки: якщо ви попросите модель порахувати кількість собак на фото, вона легко може заплутатися, яких собак вже порахувала, а яких — ще ні.

У звіті також згадуються екстремальні випадки, такі як навігація лабіринтом, де чисто мовні описи не можуть точно передати нерегулярні маршрути та складні топологічні зв’язки.

Мова як інструмент позначення вроджено нечітка в неперервному візуальному просторі. Вона добре підходить для абстрактних понять і причинно-наслідкових зв’язків, але має фундаментальні обмеження у вираженні просторової локації та топологічних відношень.

DeepSeek сам по собі є універсальною мовною моделлю, як це вирішити?

Так з’явився той самий «пальць», про який йшлося на початку статті.

Їхнім основним концептом є «візуальні примітиви» (Visual Primitives), а саме підвищення межових прямокутників (bounding boxes) і точок (points) — двох найбільш базових просторових позначок у комп’ютерному зорі — до рівня «мінімальних одиниць мислення».

Хоча попередні мультимодельні моделі також могли позначати об’єкти рамками, вони просто показували вам кінцевий результат, підтверджуючи «я знайшов». Як на іспиті, коли ви подаєте лише відповідь, не показуючи процес розв’язання.

Також деякі дослідження дозволяють ШІ малювати рамки під час міркувань, але мета цього лише «бачити точніше» — рамки є лише допоміжним інструментом. Подібно до того, як ви використовуєте чернетку при розв’язанні математичних задач: чернетка допомагає вам рахувати чіткіше, але не є частиною самого розв’язку.

DeepSeek робить зовсім інше.

Вони безпосередньо вбудовують ці маркери простору в процес міркування моделі, роблячи їх органічною частиною міркувань. Коли модель міркує, вона не лише описує мовою «Я бачу собаку», а й одночасно виводить «Я бачу собаку, вона ось тут: [[x1,y1,x2,y2]]».

Цей механізм DeepSeek називає «вказуванням під час міркування» (point while it reasons).

DeepSeek

Кожен крок міркування моделі прив’язаний до конкретних координат зображення.

У технічному звіті наведено такий приклад: модель виходить із початкової точки, подорожує, повертається назад і пробує знову, нарешті виводячи повний ряд координат, де кожна координата відповідає точці, через яку пройшов лабіринт.

Таким чином, модель не зможе “заблукати” під час виведення. Вона не буде плутати, про що саме говорить або що має на увазі. Кожен візуальний об’єкт має чітку просторову прив’язку, і процес міркування стає слідкуючим і перевіряємим.

Цей технічний напрямок утворює цікавий контраст із напрямком OpenAI.

У офіційному описі OpenAI для o3 та o4-mini чітко згадується концепція «мислення з зображеннями», тобто модель може включати зображення до ланцюжка міркувань і обробляти їх шляхом обрізання, збільшення, обертання тощо. Основна увага цього напрямку — зробити зображення частиною ланцюжка міркувань, щоб модель могла генерувати нові зображення, змінювати їх та виконувати операції з ними у процесі міркування.

Орієнтація OpenAI зосереджена на універсальних здібностях: візуальна обробка, код, пошук, файли та виклик інструментів працюють разом. Модель має потужну «візуальну робочу поверхню», яка гнучко вирішує різноманітні візуальні завдання.

Шлях DeepSeek трохи більш «символічний». Він дозволяє координатам потрапити до ланцюжка міркувань. Модель у тексті міркувань явно вказує координати обмежувальних прямокутників і точок, перетворюючи візуальні об’єкти на анкори, які можна повторно використовувати під час міркувань.

Це призводить до того, що візуальні міркування OpenAI відбуваються всередині, і користувачі бачать лише кінцеву відповідь та необхідні пояснення, тоді як проміжні візуальні процеси залишаються чорним ящиком. DeepSeek навмисно робить проміжні візуальні якорі явними, забезпечуючи повну прозорість процесу міркування.

DeepSeek робить це, і перевагою є те, що процес міркування легше навчати, перевіряти та оцінювати. Це також сприяє простішому проектуванню форматів, якості та нагород на рівні завдань. Зокрема, у завданнях, пов’язаних із лабіринтами та відстеженням шляхів, можна надавати більш детальну зворотній зв’язок щодо законності шляху, ступеня покриття траєкторії тощо.

Модель навчилася не лише виводити правильні відповіді, а й використовувати візуальні примітиви для міркувань.

02 Ефективність — це суть

У цьому звіті DeepSeek є дуже легко знехтуваний, але надзвичайно важливий деталь: їхня модель використовує значно менше токенів при обробці зображень, ніж інші передові моделі.

У звіті є порівняльний графік, який показує кількість токенів, витрачених різними моделями при обробці зображення роздільною здатністю 800×800.

Gemini-3-Flash близько 1100, Claude-Sonnet-4.6 близько 870, GPT-5.4 близько 740, Qwen3-VL близько 660, DeepSeek близько 361, і в KV-кеші зберігається лише близько 90 записів.

Ця різниця не є невеликою. DeepSeek використовує лише третину токенів, які використовує Gemini, а кількість елементів KV-кешу — лише близько десятої частини.

Як досягається така екстремальна ефективність?

DeepSeek використовує механізм, який називається «стиснена розріджена увага» (Compressed Sparse Attention, CSA).

Ти можеш уявити це так: якщо ти показуєш другу сімейне фото, ти не скажеш: «Починаючи з 237-го пікселя зліва є червона область…», ти просто скажеш: «Зліва — моя мама, справа — мій тато».

DeepSeek-ViT спочатку стискає зображення до меншої кількості візуальних токенів, а CSA додатково стискає представлення цих візуальних токенів у кеші KV.

Цей механізм вже використовувався в моделі DeepSeek-V4-Flash, а тепер його застосовано до візуальної багатомодальної обробки.

Процес стиснення виглядає так. Зображення розміром 756×756, що містить 571536 пікселів, спочатку обробляється ViT з розміром патчів 14×14, що дає 2916 патч-токенів. Потім виконується просторове стиснення 3×3, при якому кожні 9 сусідніх токенів стискаються вздовж виміру каналів у один токен, утворюючи 324 візуальні токени.

Ці 324 токени подаються у велику мовну модель для попереднього заповнення. Нарешті, механізм CSA стискає ці візуальні токени у KV-кеші ще в 4 рази, зберігаючи лише 81 елемент.

Від 571536 пікселів до 81 елемента KV-кешу, загальний коефіцієнт стиснення становить 7056 разів.

Зазвичай великі компанії з ІІ використовують методи, що базуються на масштабуванні обчислювальних ресурсів, тоді як DeepSeek робить вибір на рівні інформаційної теорії, залишаючи лише найбільш інтуїтивно зрозумілу інформацію.

Його найбільш прямим наслідком стало значне прискорення швидкості виведення.

Кількість токенів зображення безпосередньо впливає на затримку виведення моделі. У процесі авторегресивного генерування під час генерації кожного нового токена модель повинна виконувати обчислення уваги для KV-кешу всіх попередніх токенів. Якщо зображення займає 1000 токенів, то під час кожного генерування потрібно виконувати увагу для цих 1000 токенів. Якщо ж воно займає лише 90, обчислювальна завантаженість значно зменшується.

Для сценаріїв, що вимагають миттєвої відповіді, таких як робототехнічне бачення, автономне керування та аналіз відео в реальному часі, підвищення швидкості висновків відіграє вирішальну роль.

І він займає мало пам’яті.

KV-кеш є обмеженням пам’яті для висновків великих моделей. Особливо під час обробки довгих контекстів або пакетного висновку KV-кеш займає велику кількість відеопам’яті. DeepSeek стискає KV-кеш візуальних токенів до 90 елементів, що дозволяє обробляти більше зображень або довші багатокрокові діалоги на тому самому обладнанні.

Це дуже важливо для реального розгортання. Багато компаній мають багатомодальні моделі, які добре працюють у лабораторії, але при реальному розгортанні виникають проблеми з витратами. Чим більше токенів споживається на кожне зображення, тим вищими є витрати на виведення та тим менше паралельних користувачів можна підтримувати. Перевага DeepSeek у ефективності підсилюється при масштабному розгортанні.

Також непрямо збільшує обсяг контексту моделі.

Якщо зображення займає 1000 токенів, то в контекстному вікні 128K можна розмістити лише понад 100 зображень. Якщо воно займає лише 300 токенів, можна розмістити понад 400. Це критично важливо для сценаріїв, які вимагають обробки діалогів з кількома зображеннями, аналізу довгих відео та розуміння великої кількості документів.

Моделі DeepSeek можуть обробляти більше зображень у одному діалозі, порівнювати та аналізувати десятки або навіть сотні зображень, а також відстежувати довгострокові зміни у відео.

Найважливішим є вартість навчання.

Хоча звіт зосереджений на ефективності виведення, такий механізм стиснення також ефективний на етапі навчання. Менше візуальних токенів означає менший обчислювальний графік, швидше навчання та знижені вимоги до апаратного забезпечення.

DeepSeek завжди відомий принципом «досягати кращих результатів з меншими ресурсами». Від навчання з підсиленням у R1, через архітектуру MoE у V4, до сьогоднішньої візуальної багатомодальної моделі — ця філософія пріоритету ефективності проходить крізь усе.

Але тут є ключове питання. Чи втрачається інформація під час стиснення?

DeepSeek не заперечує, що стиснення призводить до втрати інформації. Його твердження полягає в тому, що на цьому наборі завдань з просторовим міркуванням та підрахунком стиснені представлення все ще достатньо ефективні.

Кожен крок стиснення зберігає інформацію, найважливішу для висновків, відкидаючи зайве та шум.

Насправді, механізм візуальних примітивів DeepSeek, про який згадувалося раніше, також є формою стиснення інформації. Один прямокутник може точно визначити об’єкт за допомогою чотирьох чисел, а одна точка може позначити положення за допомогою двох чисел. Ці дискретні символи несуть значно вищу щільність інформації, ніж сирі пікселі.

Згідно з результатами експерименту, таке стиснення не завдає шкоди продуктивності, а навпаки, покращує її у деяких завданнях.

Це означає, що для багатьох завдань візуального міркування обмеження полягають не в недостатній чіткості бачення, а в відсутності відповідного способу представлення.

Цей перевага в ефективності також підтверджує, що мультимодальний інтелект не обов’язково потребує більших моделей, більше обчислювальних потужностей або вищих витрат.

З моменту створення DeepSeek ця компанія дотримується однієї таємної ідеї: «Справжній інтелект полягає не в обчислювальній потужності, а в розумінні суті проблеми».

Коли ти справді розумієш, що потрібно для візуального міркування, тобі не потрібно стільки токенів. Коли ти знаходиш правильний спосіб представлення, тобі не потрібна така велика модель.

З цієї точки зору, екстремальна ефективність DeepSeek — не мета, а побічний продукт. Справжньою метою є знаходження правильного парадигму візуального міркування. Ефективність лише підтверджує, що ця парадигма правильна.

03 Незавершені справи

У розділі про обмеження звіту DeepSeek відверто перелічив кілька проблем існуючого підходу. Ці проблеми — не дрібні технічні недоліки, а вказівки на наступний етап візуального міркування.

Перша проблема — залежність від тригерних слів.

У звіті чітко зазначено, що поточна здатність «мислити в термінах візуальних примітивів» вимагає явних тригерних слів (explicit trigger words) для активації. Іншими словами, модель ще не може природно та автономно вирішувати, «коли малювати рамки або ставити точки».

Це означає, що модель ще не навчилася визначати, коли потрібно використовувати візуальні примітиви, а коли достатньо лише мови.

Ідеальний варіант — це коли модель може самостійно вирішувати, як діяти, залежно від характеру завдання. Але коли користувач запитує: «Порахуй, скільки собак на зображенні», модель повинна автоматично переключитися на візуальний режим і використовувати межові прямокутники для допомоги у підрахунку.

Технічно це вимагає створення метакогнітивного шару в моделі. Цей метакогнітивний шар може оцінювати складність поточної задачі, визначати, чи достатньо чистого мовного міркування, і рішати, чи потрібно викликати візуальні примітиви.

DeepSeek ще не реалізував цей метакогнітивний рівень, але вони вже визначили напрямок. Майбутні версії можуть дозволити моделі вчитися самостійно вибирати стратегії міркування, а не полагоджуватися на зовнішні тригери.

Друга проблема — обмеження роздільної здатності.

Звіт зазначає, що через обмеження вхідного роздільного здатності модель недостатньо добре впорається з дрібними сценаріями, і виведені візуальні примітиви іноді недостатньо точні.

Це пов’язано зі стратегією DeepSeek, спрямованою на ефективність. Щоб контролювати кількість токенів, вони обмежили діапазон візуальних токенів від 81 до 384. Зображення, що перевищують цей діапазон, масштабуються.

Цей дизайн є раціональним у більшості сценаріїв, але може зустрічати обмеження у завданнях, що вимагають надвисокої точності. Наприклад, аналіз медичних зображень вимагає виявлення дрібних очагів захворювання, а промислова перевірка якості — виявлення дрібних дефектів; ці сценарії вимагають високої роздільної здатності.

DeepSeek зазначає у звіті, що цю проблему можна вирішити шляхом інтеграції існуючих методів високої роздільної здатності. Іншими словами, їхня рамка візуальних примітивів та традиційні методи високороздільного обрізання не є протилежними, а доповнюють один одного.

Я вважаю, що DeepSeek може розробити гібридне рішення.

Для більшості звичайних завдань використовуються стислі візуальні представлення та міркування на основі візуальних примітивів, що забезпечує високу ефективність. Для локальних областей, що вимагають дрібнозернистого аналізу, динамічно викликаються високороздільні обрізи для витягування більш детальної візуальної інформації. Це дозволяє зберігати загальну ефективність та водночас задовольняти вимоги до точності на локальному рівні.

Ключем до цієї гібридної схеми є навчання моделі визначати, які області потребують обробки з високою роздільною здатністю. Отже, це знову повертає нас до попереднього питання метапізнання.

Третє питання — узагальнення між сценаріями.

Звіт зазначає, що вирішення складних топологічних міркувань за допомогою точок як візуальних примітивів залишається складним, а здатність моделі до узагальнення між сценаріями обмежена.

Ця проблема проявляється досить чітко в завданнях навігації по лабіринту та відстеження шляхів. Хоча DeepSeek досяг точності 66,9% і 56,7% на власному тестовому наборі, що перевищує інші моделі, ці цифри все ще недостатні.

Ще важливіше, ці завдання були навчені та протестовані на синтетичних даних. Лабіринти генерувалися за допомогою алгоритмів, а криві слідкування за шляхом малювалися програмно. Коли модель зіткнеться з проблемами топологічного міркування у реальному світі, наприклад, при плануванні шляхів на реальних картах або слідкуванні за з’єднаннями у складних трубопровідних схемах, її продуктивність може знизитися.

Метод DeepSeek полягає у підвищенні узагальнювальної здатності за допомогою масштабних та високорізноманітних даних. Вони зібрали 97984 джерела даних, після строгого фільтрування залишили 31701, і в результаті отримали понад 40 мільйонів зразків. У завданнях з лабіринтом і відстеженням шляху вони також розробили різноманітні топології, візуальні стилі та рівні складності, щоб охопити якомога більше варіацій.

Однак різноманітність даних — це лише частина універсальності. Чи розуміє модель суть топологічних міркувань, чи просто запам’ятала шаблони з навчальних даних?

Крім того, візуальні примітиви DeepSeek — це нова система представлення, яка вимагає спеціальних форматів даних, процесів навчання та методів оцінки. Вона не повністю сумісна з існуючим мультимодальним екосистемним середовищем.

Більшість мультимодальних наборів даних та тестових стандартів розроблені на основі традиційної парадигми «зображення + текст» і не враховують візуальні примітиви. Якщо потрібно оцінити моделі DeepSeek на цих стандартах, потрібно або вимкнути функцію візуальних примітивів, або переробити методи оцінки.

Іншим дослідникам, які хочуть відтворити або покращити цю роботу, потрібно знову створити весь процес даних і навчання, що вимагає високого порогу входу.

DeepSeek може згадувати ці питання у звіті, що свідчить про їхнє чітке розуміння своєї роботи.

Це може бути ціннішим, ніж надання ідеальної відповіді. Бо справжньою силою, що рухає суспільний прогрес, часто є не відповіді, а питання.