HWM розширює довгострокове планування у світових моделях

Вступ

За останній рік дослідження світових моделей спочатку зосереджувалися на навчанні представленням та прогнозуванні майбутнього. Спочатку модель розуміє світ, а потім внутрішньо моделює майбутні стани. Цей напрямок вже призвів до ряду代表性 результатів. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — набір відеосвітових моделей, опублікованих Meta у 2025 році) був попередньо навчений на понад 1 мільйоні годин відео з інтернету, а потім додатково навчений на невеликому обсязі даних про взаємодію з роботами, продемонструвавши потенціал світових моделей у розумінні, прогнозуванні та нульовому зразковому плануванні роботів.

Але передбачення моделі не означає, що вона може обробляти довгі завдання. У випадку багатоетапного керування система зазвичай стикається з двома тисками. Перший — це те, що помилки передбачення накопичуються під час довгих rollout (послідовних багатокрокових прогнозувань), що призводить до того, що вся траєкторія все більше відхиляється від мети. Другий — це те, що простір пошуку дій швидко зростає разом із horizon (горизонтом планування), що призводить до постійного зростання витрат на планування. HWM не змінює базовий навчальний шлях моделі світу, а замість цього додає ієрархічну структуру планування до вже існуючої моделі світу з умовними діями, дозволяючи системі спочатку організовувати етапні траєкторії, а потім обробляти локальні дії.

З технічної точки зору, V-JEPA 2 (https://ai.meta.com/research/vjepa/) зосереджена на представленні світу та базовому прогнозуванні, HWM — на довгостроковому плануванні, а WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) — на виявленні та корекції моделлю власних прогнозних спотворень. Ці три напрямки поступово зближуються. Основна увага досліджень світових моделей змістилася з простого прогнозування майбутнього на те, як перетворити здатність до прогнозування на виконувану, кориговану та перевіряєму системну здатність.

I. Чому довготривалий контроль залишається обмеженням світових моделей

Складність довготривалого керування легше зрозуміти на прикладі завдань робота. Наприклад, операція з захопленням чашки та її покладанням у витяжну ящику — це не окрема дія, а послідовність кроків. Система має наблизитися до об’єкта, відкоригувати його положення, виконати захоплення, переміститися до цільової позиції, а потім взаємодіяти з ящиком та розмістити предмет. Коли ланцюжок стає довшим, одночасно виникають дві проблеми: по-перше, похибки прогнозування накопичуються під час rollout, а по-друге, простір пошуку дій швидко збільшується.

Того, чого бракує в системі, зазвичай не є локальна прогностична здатність, а здатність організувати довгострокові цілі у вигляді етапних шляхів. Багато дій, з локальної точки зору, схожі на відхилення від мети, але насправді є проміжними кроками, необхідними для досягнення цілі. Наприклад, підняття руки перед тим, як схопити предмет, або відступлення назад та коригування кута перед відкриттям ящика.

У демонстраційних завданнях світова модель вже здатна надавати послідовні передбачення. Але при переході до реальних умов керування продуктивність починає падати, і виникають проблеми. Тиск походить не лише від самих представлення, а й від того, що рівень планування ще недостатньо досконалий.

Друге: Як HWM перебудувати процес планування

HWM розбив процес планування, який раніше виконувався в один етап, на два рівні. Верхній рівень відповідає за напрямок етапів на більш довгих часових масштабах, а нижній — за локальне виконання на коротших часових масштабах. Модель не планує лише за одним ритмом, а одночасно планує за двома різними часовими ритмами.

При використанні однорівневого підходу для обробки довгих завдань зазвичай необхідно безпосередньо шукати всю ланцюжок дій у просторі базових дій. Чим довше завдання, тим вищими є витрати на пошук, а помилки прогнозування легше поширюються під час багатокрокового розгортання. Після розбиття HWM високий рівень обробляє лише вибір маршруту на більш тривалих часових масштабах, а низький рівень — лише завершення поточної ділянки дій; вся довга задача розбивається на кілька коротших, що зменшує складність планування.

Тут ще один ключовий дизайн: дії вищого рівня не просто фіксують різницю між двома станами, а використовують кодувальник, щоб стиснути послідовність дій нижчого рівня у представлення дій вищого рівня. Для довгих завдань ключовим є не лише різниця між початком і кінцем, а й те, як організовані проміжні кроки. Якщо вищий рівень дивиться лише на зміщення, він може втратити інформацію про шлях у цій ланцюжку дій.

HWM відображає ієрархічний підхід до організації завдань. При роботі з багатоетапним завданням система не виконує всі дії одразу, а спочатку формує загальні етапи, а потім виконує та коригує їх поступово. Коли така ієрархія потрапляє до світової моделі, прогностичні здібності починають стабільніше перетворюватися на здатність планування.

Три. Що показують результати експерименту від 0% до 70%

У реальних умовах завдання зі збирання та розміщення, встановлених у статті, система отримує лише кінцеву цільову умову, а не розбиті людиною проміжні цілі. За таких умов успішність HWM становить 70%, тоді як одношарова world model має успішність 0%. Спочатку майже неможливі довгі завдання після введення ієрархічного планування перетворилися на результати з високою ймовірністю досягнення.

Стаття також протестувала симуляційні завдання, такі як штовхання об’єктів і навігація лабіринтом. Результати показали, що ієрархічне планування не лише підвищує успішність, але й зменшує обчислювальні витрати на етапі планування. У деяких середовищах обчислювальні витрати на етапі планування можуть зменшитися майже до чверті від початкових, залишаючи при цьому вищий або порівнянний рівень успішності.

Чотири: від V-JEPA до HWM, а потім до WAV

V-JEPA 2 представляє собою підхід до світового представлення. V-JEPA 2 було попередньо навчено на більш ніж 1 мільйоні годин відео з інтернету, а потім додатково навчено (post-training) на менш ніж 62 годинах відео з роботів, щоб отримати latent action-conditioned world model — модель світу, здатну розуміти, передбачати та планувати фізичний світ у просторі абстрактних представлень з урахуванням дій. Вона демонструє, що модель може отримати світове представлення через масштабне спостереження та застосувати це представлення до планування роботів.

HWM знаходиться на наступному етапі. Модель вже має представлення світу та базові прогнозувальні здібності, але при переході до багатоетапного керування виникають проблеми накопичення помилок та розширення простору пошуку. HWM не змінює підходу до навчання базових представлень, а додає структуру планування з кількома часовими масштабами до вже існуючої моделі світу з умовними діями. Її задача — як моделі організувати довгострокові цілі як набір проміжних кроків і поступово просуватися до них.

WAV далі зосереджується на здатності до перевірки. Щоб світова модель могла входити в сценарії оптимізації та розгортання стратегій, їй потрібно не лише передбачати, а й вміти виявляти, в яких областях вона схильна до спотворень, і відповідно коригувати це. Вона зосереджена на тому, як модель перевіряє саму себе.

V-JEPA зосереджений на представленні світу, HWM — на плануванні завдань, WAV — на перевірці результатів. Хоча вони мають різні акценти, їхні загальні напрямки збігаються. Наступний етап світових моделей — це вже не лише внутрішнє прогнозування, а поступове об’єднання прогнозування, планування та перевірки в єдину системну здатність.

П’ять: від внутрішнього прогнозування до виконавчої системи

Раніше багато робіт над світовими моделями зосереджувалися на підвищенні неперервності прогнозування майбутніх станів або стабільності внутрішнього представлення світу. Але зараз акцент досліджень змінився: система має не лише формувати судження про середовище, а й перетворювати ці судження на дії, а потім коригувати наступні кроки на основі отриманих результатів. Щоб наблизитися до реального застосування, необхідно контролювати поширення помилок у довготривалих завданнях, стискати діапазон пошуку та знижувати витрати на висновування.

Такі зміни також впливають на AI-агенти. Багато систем агентів вже можуть виконувати короткі завдання, наприклад, викликати інструменти, читати файли або виконувати кілька кроків інструкцій. Але коли завдання стає довгим, багатоетапним і вимагає перепланування в процесі, продуктивність погіршується. Це не відрізняється від основних труднощів у робототехніці — недостатня здатність до організації високорівневих шляхів призводить до розриву між локальним виконанням і загальною метою.

Підхід до ієрархічної структури, запропонований HWM, де вищий рівень відповідає за шляхи та цілі етапів, а нижчий — за локальні дії та обробку зворотного зв’язку, з додаванням перевірки результатів, така ієрархічна структура буде продовжувати з’являтися в більшості систем у майбутньому. Наступний етап світових моделей не буде зосереджений лише на прогнозуванні майбутнього, а натомість зосередиться на організації прогнозування, виконання та корекції в єдиний виконуваний шлях.