Introduction
Au cours de la dernière année, les recherches sur les modèles du monde se sont principalement concentrées sur l'apprentissage de représentations et la prédiction future. Les modèles comprennent d'abord le monde, puis simulent internement les états futurs. Cette approche a déjà produit un ensemble de résultats représentatifs. V-JEPA 2 (Video Joint Embedding Predictive Architecture 2 — un modèle du monde vidéo publié par Meta en 2025) a été pré-entraîné sur plus d'un million d'heures de vidéos Internet, puis affiné avec un petit nombre de données d'interaction robotique, démontrant ainsi le potentiel des modèles du monde dans la compréhension, la prédiction et la planification robotique en zéro échantillon.
Mais la prédiction du modèle ne signifie pas qu'il peut gérer des tâches longues. Face à un contrôle en plusieurs étapes, le système rencontre généralement deux pressions. La première est que les erreurs de prédiction s'accumulent au cours d'un long rollout (déroulement continu sur plusieurs étapes), ce qui fait dévier de plus en plus la trajectoire entière de l'objectif. La seconde est que l'espace de recherche des actions s'élargit rapidement avec l'augmentation de l'horizon (distance de planification), entraînant une augmentation continue du coût de planification. HWM ne réécrit pas la voie d'apprentissage fondamentale du modèle du monde, mais ajoute une structure de planification hiérarchique au-dessus du modèle du monde conditionné par les actions existant, permettant au système d'organiser d'abord les trajectoires par étapes, puis de gérer les actions locales.
Sur le plan technique, V-JEPA 2 (https://ai.meta.com/research/vjepa/) se concentre davantage sur la représentation du monde et la prédiction fondamentale, HWM sur la planification à long terme, et WAV (World Action Verifier: Self-Improving World Models via Forward-Inverse Asymmetry, https://arxiv.org/abs/2604.01985) sur la détection et la correction des distorsions de prédiction par le modèle lui-même. Ces trois lignes de recherche se rapprochent progressivement. L'accent dans la recherche sur les modèles mondiaux est passé de la simple prédiction du futur à la transformation de cette capacité prédictive en une capacité système exécutable, corrigeable et vérifiable.
I. Pourquoi le contrôle à long terme reste-t-il un goulot d'étranglement pour les modèles mondiaux
Les défis du contrôle à long terme deviennent plus clairs lorsqu’ils sont appliqués à des tâches robotiques. Par exemple, avec un bras mécanique : saisir une tasse puis la placer dans un tiroir n’est pas un seul geste, mais une série d’étapes continues. Le système doit s’approcher de l’objet, ajuster son orientation, effectuer la prise, se déplacer vers la position cible, puis gérer le tiroir et le placement. Plus la chaîne est longue, plus deux problèmes apparaissent simultanément : d’une part, les erreurs de prédiction s’accumulent au fil du rollout ; d’autre part, l’espace de recherche des actions s’élargit rapidement.

Ce qui manque souvent au système, ce n'est pas la capacité de prédiction locale, mais la capacité à organiser un objectif à long terme en un chemin en étapes. De nombreux gestes semblent, à court terme, s'éloigner de l'objectif, mais sont en réalité des étapes intermédiaires nécessaires à sa réalisation. Par exemple, lever le bras avant de saisir, ou reculer légèrement puis ajuster l'angle avant d'ouvrir un tiroir.
Dans les tâches de démonstration, le modèle mondial est déjà capable de produire des prédictions cohérentes. Toutefois, lorsqu'il est placé dans des scénarios de contrôle réels, ses performances commencent à diminuer, et des problèmes apparaissent. La pression ne provient pas seulement de la représentation elle-même, mais aussi du fait que la couche de planification n'est pas encore suffisamment mature.
Deuxièmement, comment HWM重构规划过程
HWM divise le processus de planification initialement effectué en une seule couche en deux couches. La couche supérieure gère la direction des phases sur une échelle de temps plus longue, tandis que la couche inférieure gère l'exécution locale sur une échelle de temps plus courte. Le modèle ne planifie pas selon un seul rythme, mais selon deux rythmes temporels différents simultanément.
Lors du traitement de tâches longues, la méthode à une seule couche nécessite généralement de rechercher directement la chaîne d'actions entière dans l'espace d'actions sous-jacent. Plus la tâche est longue, plus le coût de recherche augmente, et plus les erreurs de prédiction ont tendance à se propager au fil des étapes de rollout. Après décomposition par HWM, le niveau supérieur gère uniquement le choix des itinéraires à une échelle de temps plus longue, tandis que le niveau inférieur se concentre uniquement sur l'achèvement de la section d'actions actuelle. La tâche longue entière est ainsi divisée en plusieurs sous-tâches plus courtes, réduisant ainsi la complexité de la planification.
Il y a également une conception clé : les actions de haut niveau ne se contentent pas d'enregistrer la différence entre deux états, mais utilisent un encodeur pour compresser une séquence d'actions de bas niveau en une représentation d'action de haut niveau. Pour les tâches longues, l'essentiel n'est pas seulement la différence entre le point de départ et le point d'arrivée, mais la manière dont les étapes intermédiaires sont organisées. Si le niveau supérieur ne prend en compte que la différence de déplacement, il risque de perdre les informations sur le chemin au sein de cette chaîne d'actions.
HWM représente une approche hiérarchique d'organisation des tâches. Face à un travail en plusieurs étapes, le système ne déclenche pas tous les actions en une seule fois, mais établit d'abord un chemin de phases plus globales, puis exécute et ajuste chaque phase progressivement. Une fois cette relation hiérarchique intégrée dans le modèle du monde, la capacité de prédiction commence à se transformer plus stablement en capacité de planification.
Trois : de 0 % à 70 %, que révèlent les résultats de l'expérience ?
Dans la tâche de saisie et de placement dans un environnement réel définie dans l'article, le système ne reçoit que la condition cible finale, sans aucun objectif intermédiaire fourni manuellement. Dans ces conditions, le taux de réussite de HWM atteint 70 %, tandis que le modèle mondial à une seule couche obtient un taux de réussite de 0 %. Grâce à la planification hiérarchique, des tâches longues auparavant presque impossibles à accomplir deviennent désormais largement réalisables.

L'article a également testé des tâches de simulation telles que le déplacement d'objets et la navigation dans un labyrinthe. Les résultats montrent que la planification hiérarchique n'améliore pas seulement le taux de réussite, mais réduit également le coût de calcul lors de la phase de planification. Dans certains environnements, ce coût de calcul peut être réduit d'environ quatre fois tout en maintenant un taux de réussite plus élevé ou équivalent.
Quatre : de V-JEPA à HWM, puis à WAV
V-JEPA 2 représente la voie de la représentation du monde. V-JEPA 2 est pré-entraîné avec plus de 1 million d'heures de vidéos internet, puis affiné par un post-entraînement sur moins de 62 heures de vidéos de robots, pour produire un modèle mondial latent conditionné par les actions, capable de comprendre, prédire et planifier le monde physique. Il démontre que le modèle peut acquérir une représentation du monde à partir d'observations à grande échelle et transférer cette représentation à la planification robotique.
HWM est à la prochaine étape. Le modèle possède déjà une représentation du monde et des capacités de prédiction de base, mais dès qu'il entre dans un contrôle à plusieurs étapes, les problèmes d'accumulation d'erreurs et d'expansion de l'espace de recherche deviennent critiques. HWM ne modifie pas la voie d'apprentissage de représentation sous-jacente, mais ajoute une structure de planification à plusieurs échelles temporelles sur le modèle du monde conditionné par les actions existant. Il s'agit de résoudre comment le modèle peut organiser un objectif lointain en une série d'étapes intermédiaires, puis les avancer progressivement.
WAV met l'accent sur la capacité de validation. Pour qu'un modèle mondial puisse entrer dans des scénarios d'optimisation et de déploiement de stratégies, il ne suffit pas qu'il sache prédire ; il doit aussi être capable de détecter les zones où il tend à se déformer, et d'effectuer des corrections en conséquence. Il se concentre sur la manière dont le modèle vérifie lui-même.
V-JEPA se concentre sur la représentation du monde, HWM sur la planification des tâches, et WAV sur la validation des résultats. Bien qu'ils aient des points de focus différents, leur orientation générale est cohérente. La prochaine étape des modèles mondiaux ne se limite plus à la prédiction interne, mais consiste à intégrer progressivement prédiction, planification et validation en une capacité systémique.

Cinq : Passer de la prévision interne à un système exécutable
Les travaux précédents sur les modèles du monde se concentraient davantage sur l'amélioration de la continuité de la prédiction des états futurs ou sur la stabilité de la représentation interne du monde. Toutefois, les recherches actuelles ont commencé à évoluer : le système doit non seulement former un jugement sur l'environnement, mais aussi convertir ce jugement en actions, puis ajuster les prochaines étapes une fois les résultats obtenus. Pour s'approcher davantage d'un déploiement réel, il est nécessaire de contrôler la propagation des erreurs sur de longues tâches, de réduire l'espace de recherche et de diminuer le coût d'inférence.
Ces changements affectent également les agents IA. De nombreux systèmes d'agents sont déjà capables d'accomplir des tâches à chaîne courte, comme appeler des outils, lire des fichiers ou exécuter des instructions en plusieurs étapes. Toutefois, dès que la tâche devient longue, en plusieurs phases et nécessite une révision intermédiaire du plan, leurs performances diminuent. Cela ne diffère pas fondamentalement des difficultés rencontrées dans le contrôle des robots : il s'agit d'une capacité insuffisante d'organisation des chemins à haut niveau, entraînant un décalage entre l'exécution locale et l'objectif global.
La hiérarchie proposée par HWM, où le niveau supérieur gère les chemins et les objectifs de phase, tandis que le niveau inférieur gère les actions locales et le traitement des retours, combinée à une validation des résultats, ce type de structure hiérarchique continuera d'apparaître dans de plus en plus de systèmes à l'avenir. La prochaine étape des modèles mondiaux ne se concentrera plus uniquement sur la prédiction du futur, mais sur l'organisation de la prédiction, de l'exécution et de la correction en un chemin exécutable.
