HWM avanza en la planificación de horizontes prolongados en modelos mundiales

Introducción

Durante el último año, la investigación sobre modelos del mundo se centró inicialmente en el aprendizaje de representaciones y la predicción futura. El modelo primero comprende el mundo y luego simula internamente los estados futuros. Esta línea de investigación ya ha producido una serie de resultados representativos. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2, un modelo de mundo de video lanzado por Meta en 2025) se preentrenó con más de 1 millón de horas de videos de internet y, al combinarlo con datos limitados de interacción robótica, demostró el potencial de los modelos del mundo en comprensión, predicción y planificación robótica en cero muestras.

Pero la predicción del modelo no equivale a su capacidad para manejar tareas largas. Frente al control en múltiples etapas, el sistema generalmente enfrenta dos presiones: una es que los errores de predicción se acumulan continuamente durante un rollout largo (inferencia continua de múltiples pasos), lo que hace que la trayectoria completa se desvíe cada vez más del objetivo; la otra es que el espacio de búsqueda de acciones se expande rápidamente con el aumento del horizonte (alcance de planificación), lo que provoca un aumento constante en el costo de planificación. HWM no reescribe la ruta de aprendizaje subyacente del modelo del mundo, sino que añade una estructura de planificación jerárquica sobre el modelo del mundo condicionado por acciones existente, permitiendo que el sistema primero organice las trayectorias por etapas y luego maneje las acciones locales.

Desde el punto de vista técnico, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se enfoca más en la representación del mundo y la predicción básica, HWM se centra más en la planificación a largo plazo, y WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) se orienta más hacia la identificación y corrección de distorsiones en las predicciones del modelo. Las tres líneas están convergiendo progresivamente. El enfoque de la investigación en modelos mundiales ha pasado de la simple predicción del futuro a cómo convertir la capacidad predictiva en habilidades sistémicas ejecutables, corregibles y verificables.

I. ¿Por qué el control a largo plazo sigue siendo un cuello de botella para los modelos del mundo?

Las dificultades del control a largo plazo se vuelven más claras cuando se aplican a tareas robóticas. Por ejemplo, con un brazo mecánico: agarrar una taza y colocarla en un cajón no es un solo movimiento, sino una secuencia de pasos continuos. El sistema debe acercarse al objeto, ajustar su postura, realizar el agarre, moverse hasta la posición objetivo y luego manipular el cajón y colocar la taza. A medida que la cadena se alarga, surgen dos problemas simultáneamente: primero, los errores de predicción se acumulan a lo largo del rollout; segundo, el espacio de búsqueda de acciones se expande rápidamente.

Lo que generalmente falta en el sistema no es la capacidad de predicción local, sino la capacidad de organizar objetivos a largo plazo en rutas por etapas. Muchas acciones, vistas localmente, parecen desviarse del objetivo, pero en realidad son pasos intermedios necesarios para lograrlo. Por ejemplo, elevar el brazo antes de agarrar, o retroceder ligeramente y ajustar el ángulo antes de abrir un cajón.

En tareas de exhibición, el modelo mundial ya puede generar predicciones coherentes. Pero al entrar en escenarios de control real, el rendimiento comienza a disminuir y surgen problemas. La presión no proviene solo de la representación en sí, sino también de que la capa de planificación aún no está lo suficientemente madura.

II. ¿Cómo HWM reestructura el proceso de planificación

HWM divide el proceso de planificación, que originalmente se realizaba en una sola capa, en dos capas. La capa superior se encarga de la dirección de las etapas en escalas de tiempo más largas, mientras que la capa inferior se encarga de la ejecución local en escalas de tiempo más cortas. El modelo no planifica según un solo ritmo, sino que planifica simultáneamente según dos ritmos temporales diferentes.

Al procesar tareas largas, el método de una sola capa generalmente requiere buscar directamente en el espacio de acciones subyacente toda la cadena de acciones. Cuanto más larga sea la tarea, mayor será el costo de búsqueda y más probable será que los errores de predicción se propaguen continuamente a lo largo de múltiples pasos de rollout. Tras descomponer el proceso, HWM permite que la capa superior se encargue únicamente de la selección de rutas a escalas de tiempo más largas, mientras que la capa inferior se enfoca únicamente en completar la acción actual. Así, la tarea larga se divide en múltiples tareas más cortas, reduciendo la complejidad de planificación.

Aquí hay otro diseño clave: las acciones de alto nivel no simplemente registran la diferencia entre dos estados, sino que utilizan un codificador para comprimir una secuencia de acciones de bajo nivel en una representación de acción de alto nivel. Para tareas largas, lo crucial no es solo cuánto cambia la diferencia entre el punto de partida y el de llegada, sino cómo se organizan los pasos intermedios. Si el nivel alto solo observa la diferencia de desplazamiento, fácilmente pierde la información de la trayectoria dentro de esta cadena de acciones.

HWM representa un enfoque jerárquico para organizar tareas. Ante un trabajo de múltiples etapas, el sistema no ejecuta todas las acciones de una vez, sino que primero establece una ruta de etapas más generales y luego ejecuta y ajusta cada segmento progresivamente. Cuando esta relación jerárquica se integra en el modelo del mundo, la capacidad de predicción comienza a convertirse de manera más estable en capacidad de planificación.

Tres: Del 0% al 70%, ¿qué indican los resultados del experimento?

En la tarea de recopilación y colocación en el mundo real configurada en el artículo, el sistema solo recibe la condición final objetivo, sin proporcionar metas intermedias descompuestas por humanos. Bajo estas condiciones, el HWM logra una tasa de éxito del 70%, mientras que el modelo de mundo de una sola capa tiene una tasa de éxito del 0%. Tareas largas que originalmente eran casi imposibles de completar se convierten en resultados probablemente alcanzables tras la introducción de la planificación jerárquica.

El artículo también evaluó tareas de simulación como empujar objetos y navegación en laberintos. Los resultados mostraron que la planificación jerárquica no solo aumentó la tasa de éxito, sino que también redujo el costo computacional en la fase de planificación. En algunos entornos, el costo computacional en la fase de planificación se redujo hasta aproximadamente una cuarta parte, manteniendo al mismo tiempo una tasa de éxito más alta o comparable.

Cuatro: de V-JEPA a HWM y luego a WAV

V-JEPA 2 representa la vía de la representación del mundo. V-JEPA 2 se preentrena con más de 1 millón de horas de videos de internet y luego se somete a un post-entrenamiento con menos de 62 horas de videos de robots, obteniendo un modelo mundial condicionado por acciones latentes capaz de comprender, predecir y planificar el mundo físico. Lo que demuestra es que el modelo puede adquirir una representación del mundo a través de una observación a gran escala y transferir esta representación a la planificación de robots.

HWM está en el siguiente paso. El modelo ya posee una representación del mundo y capacidades de predicción básicas, pero al entrar en control multietapa, surgen problemas de acumulación de errores y expansión del espacio de búsqueda. HWM no modifica la ruta subyacente de aprendizaje de representaciones, sino que añade una estructura de planificación a múltiples escalas temporales sobre el modelo del mundo condicionado por acciones existente. El problema que aborda es cómo el modelo organiza objetivos a largo plazo en un conjunto de pasos intermedios y los avanza paso a paso.

WAV también enfatiza aún más la capacidad de validación. Para que los modelos del mundo ingresen a escenarios de optimización y despliegue de estrategias, no basta con solo predecir; también deben ser capaces de identificar en qué áreas son propensos a distorsionarse y corregirse en consecuencia. Se centra en cómo el modelo se verifica a sí mismo.

V-JEPA se enfoca en la representación del mundo, HWM en la planificación de tareas y WAV en la validación de resultados. Aunque sus puntos de enfoque difieren, su dirección general es coherente. La siguiente etapa de los modelos del mundo ya no se limita a la predicción interna, sino que integra progresivamente predicción, planificación y validación como una capacidad sistémica.

V. De la predicción interna a un sistema ejecutable

Anteriormente, muchos trabajos sobre modelos mundiales se centraban más en mejorar la continuidad de la predicción de estados futuros o la estabilidad de la representación interna del mundo. Sin embargo, el enfoque actual de la investigación ha comenzado a cambiar: el sistema debe no solo formar juicios sobre el entorno, sino también convertir esos juicios en acciones y ajustar continuamente los siguientes pasos una vez obtenidos los resultados. Para acercarse más a una implementación real, es necesario controlar la propagación de errores, comprimir el rango de búsqueda y reducir el costo de razonamiento en tareas de largo plazo.

Estos cambios también afectan a los agentes de IA. Muchos sistemas de agentes ya pueden completar tareas de cadena corta, como invocar herramientas, leer archivos o ejecutar instrucciones en varios pasos. Sin embargo, cuando la tarea se vuelve de cadena larga, multietapa y requiere replanificación intermedia, su rendimiento disminuye. Esto no difiere esencialmente de los desafíos en el control de robots: ambos sufren por una insuficiente capacidad de organización de rutas de alto nivel, lo que provoca una desconexión entre la ejecución local y el objetivo general.

La idea de jerarquía proporcionada por HWM, donde el nivel superior se encarga de la ruta y los objetivos de fase, y el nivel inferior se encarga de las acciones locales y el procesamiento de retroalimentación, con la adición de validación de resultados, este tipo de estructura jerárquica continuará apareciendo en más sistemas en el futuro. La próxima fase de los modelos del mundo ya no se centrará solo en predecir el futuro, sino en organizar la predicción, la ejecución y la corrección en una ruta ejecutable.