HWM продвигает долгосрочное планирование в мировых моделях

Вступление

За последний год основное внимание исследований в области мировых моделей было сосредоточено на обучении представлениям и прогнозировании будущего. Сначала модель понимает мир, а затем внутренне моделирует будущие состояния. Этот подход уже привел к ряду значимых результатов. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — набор видео-моделей мира, выпущенный Meta в 2025 году) был предварительно обучен на более чем 1 миллиона часов видео из интернета и дополнительно дообучен на небольшом объеме данных о взаимодействии с роботами, продемонстрировав потенциал мировых моделей в понимании, прогнозировании и нулевом образце планирования роботов.

Однако предсказание модели не означает, что она способна обрабатывать длинные задачи. При многопроцессном управлении система обычно сталкивается с двумя проблемами. Первая — ошибка предсказания накапливается при длительном rollout (последовательном многократном прогнозировании), что приводит к все большему отклонению всей траектории от цели. Вторая — пространство поиска действий быстро расширяется с увеличением горизонта (планируемого временного окна), что вызывает постоянный рост затрат на планирование. HWM не переписывает базовую обучающую траекторию модели мира, а добавляет иерархическую структуру планирования поверх существующей модели мира с условием действий, позволяя системе сначала организовывать этапы траектории, а затем обрабатывать локальные действия.

С технической точки зрения, V-JEPA 2 (https://ai.meta.com/research/vjepa/) больше ориентирован на представление мира и базовое прогнозирование, HWM — на долгосрочное планирование, а WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) — на выявление и коррекцию искажений собственных прогнозов моделью. Эти три направления постепенно сходятся. Основной фокус исследований в области моделей мира сместился с простого прогнозирования будущего на преобразование способности прогнозировать в выполнимые, корректируемые и проверяемые системные возможности.

I. Почему долгосрочное управление остается узким местом для моделей мира

Сложности долгосрочного управления легче понять на примере задач роботов. Возьмем, например, манипулятор: поднять чашку и положить ее в ящик — это не одно действие, а серия последовательных шагов. Система должна приблизиться к объекту, скорректировать положение, выполнить захват, переместиться в целевое положение, а затем обработать ящик и поместить чашку внутрь. По мере удлинения цепочки одновременно возникают две проблемы: во-первых, ошибки предсказания накапливаются вдоль rollout, во-вторых, пространство поиска действий быстро расширяется.

Того, чего не хватает в системе, обычно не является локальной прогностической способностью, а способностью организовывать дальнюю цель в виде поэтапного пути. Многие действия на локальном уровне кажутся отклонением от цели, но на самом деле являются промежуточными шагами, необходимыми для достижения этой цели. Например, поднятие руки перед захватом или отступление и корректировка угла перед открытием ящика.

В демонстрационных задачах мировая модель уже способна давать последовательные прогнозы. Однако при переходе к реальным условиям управления производительность начинает снижаться, и возникают проблемы. Давление исходит не только от самой репрезентации, но и от недостаточной зрелости планировочного уровня.

II. Как HWM перестраивает процесс планирования

HWM разделил процесс планирования, который ранее выполнялся в одном уровне, на два уровня. Верхний уровень отвечает за направление на более длительных временных масштабах, нижний — за локальное выполнение на более коротких временных масштабах. Модель планирует не по одному ритму, а одновременно по двум различным временным ритмам.

При использовании одиночного метода для обработки длинных задач обычно необходимо напрямую искать всю цепочку действий в пространстве базовых действий. Чем длиннее задача, тем выше стоимость поиска и тем выше вероятность накопления и распространения ошибок прогнозирования на протяжении многошагового развертывания. После разделения HWM высокий уровень занимается только выбором маршрута на более длительных временных масштабах, а низкий уровень — только выполнением текущего фрагмента действий. Вся длинная задача разбивается на несколько более коротких задач, что снижает сложность планирования.

Здесь также есть ключевой дизайн: действия высокого уровня не просто фиксируют разницу между двумя состояниями, а используют кодировщик для сжатия последовательности низкоуровневых действий в представление действий более высокого уровня. Для длинных задач ключевым является не только разница между начальной и конечной точками, но и то, как организованы промежуточные шаги. Если высокий уровень смотрит только на смещение, он легко упустит информацию о траектории внутри этой цепочки действий.

HWM представляет собой иерархический подход к организации задач. При работе с многоэтапными задачами система не выполняет все действия сразу, а сначала формирует более общие этапы, а затем постепенно выполняет и корректирует их. Когда эта иерархия входит в модель мира, прогнозирование начинает более стабильно превращаться в планирование.

Три: от 0% до 70%, что показывают результаты эксперимента

В реальных задачах захвата и размещения, установленных в работе, система получает только конечное целевое условие, без предоставления заранее разобранных промежуточных целей. При таких условиях成功率 HWM составляет 70%, а у одноуровневой world model — 0%. Изначально практически невыполнимые длинные задачи после введения иерархического планирования становятся с высокой вероятностью достижимыми.

Статья также протестировала симуляционные задачи, такие как толкание объектов и навигация по лабиринту. Результаты показали, что иерархическое планирование не только повысило成功率, но и снизило вычислительные затраты на этапе планирования. В некоторых средах вычислительные затраты на этапе планирования могут быть снижены примерно до четверти от исходных значений при сохранении более высокой или сопоставимой成功率.

Четвертый этап: от V-JEPA к HWM, а затем к WAV

V-JEPA 2 представляет собой подход к построению мировых представлений. V-JEPA 2 предварительно обучался на более чем 1 миллиона часов видео из интернета, а затем прошел пост-обучение на менее чем 62 часах робототехнического видео, чтобы получить latent action-conditioned world model — модель мира, способную понимать, предсказывать и планировать физический мир в пространстве абстрактных представлений с учетом действий. Она демонстрирует, что модель может получать мировые представления на основе масштабного наблюдения и переносить эти представления в планирование роботов.

HWM находится на следующем этапе. Модель уже обладает представлением мира и базовыми прогнозирующими способностями, но при переходе к многоэтапному управлению возникают проблемы накопления ошибок и расширения пространства поиска. HWM не изменяет основной подход к обучению представлений, а добавляет структуру планирования с несколькими временнýми масштабами к существующей модели мира с условием действий. Ее задача — научить модель организовывать дальнюю цель в набор промежуточных шагов и продвигаться по ним поэтапно.

WAV далее сосредотачивается на способности к верификации. Чтобы мировые модели могли применяться в сценариях оптимизации и внедрения стратегий, им недостаточно просто предсказывать — они должны уметь выявлять, в каких областях они склонны к искажениям, и корректироваться на основе этого. Они фокусируются на том, как модель проверяет себя.

V-JEPA ориентирован на представление мира, HWM — на планирование задач, WAV — на проверку результатов. Хотя их фокусы различны, общее направление у них одинаково. Следующий этап моделей мира — это уже не просто внутреннее предсказание, а постепенное объединение предсказания, планирования и проверки в единую системную способность.

Пять: от внутреннего прогнозирования к исполняемой системе

Ранее многие работы над мировыми моделями были направлены на повышение непрерывности прогнозирования будущих состояний или стабильности внутреннего представления мира. Однако сейчас акцент исследований начал меняться: система должна не только формировать суждения об окружающей среде, но и преобразовывать эти суждения в действия, а затем корректировать следующие шаги после получения результата. Для более реалистичного внедрения необходимо контролировать распространение ошибок, сокращать диапазон поиска и снижать вычислительные затраты при выполнении длительных задач.

Такие изменения также влияют на AI-агентов. Многие системы агентов уже могут выполнять короткие задачи, например, вызывать инструменты, читать файлы или выполнять несколько шагов команд. Однако, когда задача становится длинной, многоэтапной и требует перепланирования в процессе, производительность снижается. Это не отличается по сути от трудностей в робототехнике — недостаточная способность к организации высокого уровня пути приводит к разрыву между локальным выполнением и общей целью.

Подход к иерархии, предлагаемый HWM: высокий уровень отвечает за путь и целевые этапы, низкий уровень — за локальные действия и обработку обратной связи, с дополнительной проверкой результатов. Такая иерархическая структура будет продолжать появляться во все большем числе систем. Следующий этап мировых моделей будет сосредоточен не только на прогнозировании будущего, а на организации прогнозирования, выполнения и корректировки в виде исполняемого пути.