L'article examine les voies de développement des modèles du monde dans le domaine de l'intelligence incarnée. Actuellement, deux approches coexistent : la faction « substitutionnelle » de la Silicon Valley, qui vise à remplacer entièrement les VLA par des WAM, et la faction « fusionnelle » dominante en Chine, qui considère les modèles du monde comme un complément de capacités des VLA. L'article souligne que les modèles du monde font face à trois bulles : une généralisation excessive de la définition, un seuil élevé en termes de puissance de calcul et des difficultés de mise en œuvre. Il estime qu'un véritable modèle du monde doit être intégré à une boucle d'affaires réelle, afin d'aider les machines à agir dans le monde physique, et non de se concentrer uniquement sur le réalisme des images générées.

Auteur et source : Primordial Lab

De VLA à WAM, une révolution surestimée et une évolution sous-estimée.

Au cours des six derniers mois, deux vagues d'enthousiasme médiatique ont dominé le domaine de l'intelligence incarnée. L'une concernait les écrans : de Sora aux divers modèles de génération vidéo, chacun a démontré ses capacités, avec des détails tels que le déversement et la répartition d'un verre d'eau, ou le mouvement des personnages dans un espace continu, propulsant le récit de « l'IA qui recrée la réalité » à son apogée, tandis que les exclamations « Les modèles du monde arrivent ! » résonnaient partout. L'autre concernait les tombes : le scientifique principal en recherche chez NVIDIA, Jim Fan, a publié une meme montrant un WAM (World Action Model) debout devant une tombe marquée VLA (Vision-Language-Action Model), déclarant officiellement « La VLA est morte, vive le modèle du monde ! », plaçant directement la bataille des approches au premier plan. (Cet article ne traite que des modèles du monde dans l'intelligence incarnée.)

Deux fêtes partagent le même mot-clé : modèle mondial.

Mais il est curieux que plus on parle d'intelligence incarnée, plus son image devient floue : certains appellent modèle du monde la génération de vidéos réalistes, d'autres le prédiction des mouvements des robots, et d'autres encore l'environnement de simulation pour la conduite autonome. Sous le même concept, on retrouve des objectifs techniques et des ambitions commerciales totalement différents.

Le plus grand danger des modèles mondiaux actuels n'est jamais le « manque de définition claire », mais le fait que tout le monde utilise uniquement la facette la plus facile à montrer et la plus propice à créer des viralités pour définir toute sa valeur. Lorsque les démonstrations spectaculaires de « création de mondes » surpassent l'essence même de « l'utilisation du monde », les modèles mondiaux sont dévoyés par les meilleurs conteurs loin de l'endroit où ils devraient véritablement aller : les scénarios physiques réels de l'IA physique.

Les modèles mondiaux nécessitent évidemment la capacité de « créer un monde ». Sans ces démonstrations génératives impressionnantes, ils n'auraient pas atteint aussi rapidement le regard du public et des investisseurs. Mais pour l'industrie de l'IA physique, générer un monde n'est jamais que le début du problème. Ce monde doit finalement être contrôlé, validé et corrigé, pour devenir finalement un espace de simulation et une base décisionnelle avant toute action machine. La génération vidéo peut ouvrir la porte aux modèles mondiaux, mais elle ne peut pas parcourir tout le chemin vers le monde physique réel.

Nous ne manquons jamais de nouveaux concepts ni de nouvelles narrations ; l’intelligence incarnée empruntera inévitablement son propre chemin universel. À ce moment-là, savoir si ce chemin s’appelle VLA, WAM ou un autre nom n’aura peut-être plus aucune importance.

After all, it is embedded in our lives.

Le modèle mondial n'est pas équivalent à la « génération d'images »

Vous vous souvenez de Sora ?

Lors de la sortie de Sora par OpenAI, le titre du rapport était « Video generation models as world simulators », annonçant que les modèles de génération vidéo pourraient constituer un chemin viable vers un « simulateur universel du monde physique ». À l'époque, les longues vidéos présentées par Sora, avec leurs mouvements de caméra, leur cohérence 3D locale et leur capacité à maintenir l'état des objets, ont permis au grand public de ressentir pour la première fois de manière intuitive : l'IA semble véritablement apprendre à « construire un monde ». Comparé au texte et aux images, la vidéo correspond naturellement à la perception intuitive humaine du « monde » — avec du temps, de l'espace, du mouvement et des changements continus — ce qui facilite facilement l'illusion que le modèle a déjà maîtrisé les lois physiques.

Ce type de capacité est naturellement adapté à la présentation lors de conférences et attire le plus facilement l'attention des capitaux et des médias. Au fil du temps, « génération vidéo = modèle du monde » est devenu pour beaucoup l'entrée par défaut de leur compréhension.

Ce n'est certainement pas une erreur. Dans les scénarios nativement numériques, les approches de génération vidéo constituent déjà une solution efficace, et de nombreuses start-ups unicorns ont déjà émergé. Leurs produits peuvent être utilisés dans l'industrie du jeu pour générer en temps réel des scènes dynamiques, réduisant ainsi les coûts artistiques tout en augmentant la liberté des joueurs ; dans des domaines à hauts coûts d'essais et d'erreurs tels que l'aérospatiale et la fabrication de haut niveau, ils permettent d'étendre les limites des tests et d'enrichir les scénarios de simulation, offrant clairement une valeur commerciale. À ce stade, le « monde » généré n'est pas une image destinée à être observée, mais un environnement simulé interactif et expérimentable.

La véritable malinterprétation survient à la frontière entre les domaines, lorsque les modèles du monde rencontrent l'intelligence incarnée : beaucoup supposent à tort que, puisqu'un modèle peut générer un monde numérique continu et réaliste, il possède alors la compréhension, la prédiction et les capacités d'action du monde physique.

Wang Zhongyuan, directeur de l'Institut de recherche en intelligence artificielle de Pékin, a formulé un jugement juste : les technologies de génération vidéo, actuellement largement considérées comme des représentants des modèles du monde, ne sont en réalité que des simulations au niveau des pixels. « Les modèles de génération vidéo peuvent produire un groupe de porcs volant dans le ciel avec des avions, car leurs données d'entraînement contiennent de nombreux contenus de films de science-fiction ; leur objectif n'a jamais été de reproduire les lois du monde physique réel. »

Un scénario incarné classique suffit à illustrer cette lacune : attraper une tasse. Le modèle peut générer une tasse apparemment cohérente sous différents angles — c’est la cohérence visuelle, qu’il a apprise à partir de données vidéo ; mais quelle est la force de frottement lorsqu’on tend la main pour la saisir ? Le matériau peut-il supporter la pression de la prise ? La tasse tombe sur la table parce que le modèle se souvient que « les tasses sont généralement sur les tables », ou parce qu’il comprend réellement la gravité, la force de soutien et les contraintes de contact ? Les réponses mécaniques complexes, les changements d’état après contact, et les contraintes causales des lois physiques réelles ne peuvent pas être couverts par une vidéo générée. Lorsqu’une voiture se déplaçant latéralement est générée et intégrée sans vérification dans la chaîne d’entraînement d’un système de conduite autonome, le monde physique réel finira par en payer le prix.

Autrement dit, la génération vidéo est une forme de modèle du monde, déjà déployée dans de nombreux scénarios, mais elle n'est ni le modèle du monde requis pour l'intelligence incarnée, ni la forme centrale dans le contexte de l'IA physique. Définir le modèle du monde de l'intelligence incarnée par les effets visuels de « créer un monde » revient à utiliser une règle numérique pour mesurer des problèmes du monde physique.

VLA est mort ? Les modèles mondiaux ne sont pas une révolution, mais un complément

« VLA est mort, WAM prend la relève » est le récit le plus répandu dans l'industrie.

Au cours des deux dernières années, VLA a été la voie dominante dans l’intelligence incarnée. Il s’appuie sur la stratégie de pré-entraînement des grands modèles linguistiques, établissant une correspondance « perception - instruction - action » à partir de vastes jeux de données de téléopération, permettant aux robots de passer d’actions mécaniques et répétitives à la compréhension du langage naturel et à la décomposition de tâches complexes. Tous les acteurs majeurs du secteur ont utilisé VLA comme fondement technologique de base.

Mais les limites de VLA sont très claires : il s'agit essentiellement d'un apprentissage par imitation qui repose sur la mémorisation et la correspondance, sans compréhension fondamentale des lois physiques. Dès qu'il est confronté à de nouveaux scénarios ou de nouveaux objets non présents dans les données, sa capacité de généralisation échoue rapidement. La voie WAM proposée par Jim Fan cible précisément ce point faible. Son logique centrale consiste à passer de la « compréhension sémantique » à la « prédiction physique » : au lieu de produire directement les actions, elle prédit d'abord l'état futur du monde, puis en déduit séquentiellement les actions nécessaires — comme si le robot « répétait » mentalement les conséquences avant d'agir, afin d'améliorer son adaptation aux scénarios inconnus.

Ainsi, la théorie de la révolution s'est rapidement répandue : VLA serait un ancien paradigme obsolète, et les modèles du monde constitueraient la prochaine génération de l'intelligence incarnée. Mais dans la pratique industrielle réelle, les choses sont bien plus complexes qu'une simple alternative « vivant ou mort ».

L'industrie se divise en deux voies claires, sous-tendues par des philosophies technologiques et des objectifs commerciaux différents :

Une branche, dirigée par la Silicon Valley, représente la « faction alternative ». Portée par des acteurs comme NVIDIA et Google DeepMind, elle s'appuie sur une puissance de calcul et des réserves de données abondantes pour poursuivre une重构 complète du paradigme. NVIDIA intègre dans Cosmos 3 le langage, l'image, la vidéo et les séquences d'actions au sein d'un même cadre de modèle physique d'intelligence artificielle, visant à faire en sorte que la génération, la simulation et la prédiction d'actions ne soient plus des modules isolés. Le Waymo World Model, développé en collaboration entre Waymo et Google DeepMind, utilise les capacités du modèle Genie 3 non seulement pour générer des scénarios de queue longue tels que des conditions météorologiques rares ou des animaux entrant sur la route, mais surtout pour soumettre ces scénarios au contrôle des actions de conduite, de la configuration routière et des conditions linguistiques, afin de tester les réactions des systèmes de conduite autonome dans des contextes contre-factuels.

C'est le chemin le plus ambitieux et le plus conforme à la « narration révolutionnaire », mais il présente un seuil extrêmement élevé : c'est le jeu des géants du secteur.

L’autre approche, plus répandue en Chine, est celle de la « fusion ». La grande majorité des joueurs n’ont pas choisi de tout reconstruire, mais ont intégré le modèle du monde comme complément des capacités VLA au sein de leur architecture existante. Zhi Square a lancé en mai 2026 AlphaBrain, un grand modèle VLA incarné. S’inspirant du mécanisme de répartition des tâches du cerveau humain — « cerveau-cervelet-tronc » — il intègre la capacité de « simulation » du modèle du monde au sein même de l’architecture VLA grâce à une collaboration entre systèmes rapide et lent : le système lent gère la perception de l’état de l’environnement et la planification des comportements de haut niveau, tandis que le système rapide assure la détection fine des capteurs et les réponses rapides. Selon Guo Yandong, fondateur de Zhi Square, la vision est directe : « Le modèle du monde et le VLA ne sont en aucun cas contradictoires ; ils ne font que deux branches d’une même voie technologique. Pour effectuer des tâches de raisonnement à plus long terme, il faut combiner modèle du monde et VLA, ou les fusionner. »

Galaxy General a également fait de grands progrès : leur modèle LDA-1B, publié en avril de cette année, effectue simultanément l'apprentissage des stratégies, la prédiction physique et la perception visuelle dans un cadre unifié, réalisant pour la première fois à une échelle industrielle de 1 milliard de paramètres l'unification du modèle du monde et du modèle d'action. Ces résultats ont été retenus pour la conférence de robotique de premier plan RSS, et les poids du modèle ainsi que le code d'entraînement sont désormais open source. Ils ne se concentrent pas sur la question « VLA ou modèle du monde », mais adoptent une approche plus pragmatique en faisant partager au prédiction et à l'exécution le même modèle, tirant parti des forces de chacun et compensant leurs faiblesses respectives.

À nos yeux, « substitution » et « fusion » ne sont pas absolument bonnes ou mauvaises, mais simplement des choix différents à des étapes différentes. VLA ne « mourra » pas réellement, et les modèles mondiaux ne constituent pas une révolution qui tout bouleverse ; ils combleront simplement la capacité de prédiction physique la plus manquante de VLA. La relation finale entre les deux sera probablement une collaboration hiérarchisée, et non une lutte à mort. Ce qui détermine réellement le succès d’une voie, ce n’est jamais la nouveauté du concept, mais qui parvient le premier à faire fonctionner la chaîne de données, de simulation et de déploiement sur des machines réelles, afin que les robots puissent véritablement entrer dans des scénarios réels.

Le modèle mondial n'est pas encore mis en œuvre, mais les concepts sont déjà surchauffés.

Lorsque la popularité d'un concept précède sa mise en œuvre technique, la bulle est presque inévitable. Dans le domaine actuel des modèles mondiaux, au moins trois bulles méritent une attention particulière.

La première étape consiste à définir la bulle. Le modèle du monde d'aujourd'hui est devenu un panier dans lequel on peut tout mettre. Yann LeCun le considère comme une prédiction abstraite de l'état du monde, Li Fei-Fei le définit comme une représentation d'espace 3D interactive, NVIDIA le positionne comme un simulateur génératif d'IA physique, certaines startups utilisent la génération vidéo comme substitut, tandis que d'autres se contentent de rebaptiser des moteurs de simulation traditionnels en « modèle du monde ». En Chine, des dizaines d'entreprises affirment s'être engagées dans le modèle du monde, mais elles pourraient très bien ne pas parler de la même chose. Lorsqu'un concept technologique peut être infiniment interprété, il perd souvent toute signification comme critère technique. La généralisation de la définition est poussée conjointement par les besoins de financement et les récits marketing : après tout, appeler cela « modèle du monde » est bien plus rentable que le désigner comme « outil de génération vidéo » ou « solution d'optimisation de simulation ».

La deuxième bulle est celle de la puissance de calcul. La voie dominante pour l'entraînement des modèles mondiaux repose sur d'immenses quantités de données vidéo et une puissance de calcul énorme — ce qui constitue précisément le terrain d'expertise d'NVIDIA. Jensen Huang a déclaré lors de la conférence GTC que les puces Blackwell et Rubin, ainsi que les systèmes associés conçus pour des modèles d'intelligence incarnée, généreront au moins 1 000 milliards de dollars de revenus pour NVIDIA d'ici 2027. D'une certaine manière, la poussée des principaux acteurs de la Silicon Valley en faveur de la voie du « modèle mondial multimodal universel » s'aligne parfaitement sur la logique commerciale d'NVIDIA, qui consiste à vendre des infrastructures de puissance de calcul. Toutefois, le seuil d'entrée de cette approche est pour la plupart des entreprises un gouffre financier : même les équipes plus petites ayant déjà investi dans les VLA peinent à assumer un tel coût irrécupérable, sans parler de démarrer dès le départ dans le domaine des modèles mondiaux. Lorsque tout le monde discute de la même voie exigeant une puissance de calcul élevée, mais que très peu parviennent à évaluer le rapport coût-bénéfice, c'est en soi un signe de bulle.

La troisième et la plus mortelle est la bulle d'implémentation. Tous les récits conceptuels doivent finalement répondre à la même question : peut-il vraiment améliorer les performances réelles ? Or, la lacune entre la simulation et la réalité ne disparaît pas automatiquement parce que le nom du modèle passe de VLA à WAM. Un léger artefact de collision, une violation de la gravité ou une frontière floue dans une vidéo se solidifieront en une mauvaise compréhension physique lors de l'entraînement du robot ; une prédiction qui semble raisonnable mais contredit les lois physiques peut induire en erreur la machine réelle encore plus gravement que de ne pas utiliser de modèle pour l'entraînement.

Le scientifique en chef de Ant Lingbo, Shen Yujun, a souligné la différence fondamentale : dans le monde numérique, les modèles de génération peuvent poursuivre une haute définition et un réalisme, même si cela prend plus de temps ; mais pour les modèles du monde physique, la priorité absolue est la rapidité, la stabilité et la précision — ils doivent être capables de fournir des retours en temps réel et de soutenir des actions. De nombreuses équipes s'obstinent à rendre les scènes de plus en plus réalistes dans le monde numérique, tout en ignorant que les données issues d'interactions physiques réelles sont la ressource la plus rare. Les modèles mondiaux peuvent afficher d'excellents indicateurs en simulation, mais tant qu'ils n'ont pas validé leur valeur réelle sur des lignes de production industrielle, dans des entrepôts logistiques ou sur des routes ouvertes, ils restent des explorations technologiques en laboratoire, et non des infrastructures industrielles.

Alors, à quoi devrait ressembler le modèle du monde pour Physical AI ou l’intelligence incarnée ? La réponse ne se trouve jamais dans les démonstrations des présentations, mais dans les besoins des scénarios réels. Son critère d’évaluation fondamental n’est jamais « la réalisme suffisant du monde généré », mais « si cela aide les machines à agir plus efficacement dans le monde physique », si cela réduit les coûts d’essai-erreur, améliore la capacité de généralisation et s’intègre dans un cycle métier réel.

Selon les pratiques actuelles de l'industrie, les acteurs véritablement sur la bonne voie font tous la même chose : faire passer les modèles mondiaux d'une approche « orientée présentation » à une approche « orientée tâche ». Autrement dit, la forme ultime des modèles mondiaux n'est pas un « produit » indépendant, mais une capacité fondamentale intégrée à divers systèmes physiques. Elle se cache dans les arrière-plans de simulation des véhicules autonomes, dans les modules de planification des mouvements des robots, et dans les systèmes de prévision des lignes de production d'usine, accomplissant discrètement les tâches de prévision, d'essais-erreurs et de correction. La plupart du temps, les utilisateurs ne perçoivent même pas sa présence.

C'était l'ère des modèles mondiaux, bien sûr, ils pourraient aussi ne pas s'appeler modèles mondiaux.

Modèles mondiaux dans l'intelligence incarnée : Une voie à suivre au-delà de la génération visuelle

Le modèle mondial n'est pas équivalent à la « génération d'images »

VLA est mort ? Les modèles mondiaux ne sont pas une révolution, mais un complément

Le modèle mondial n'est pas encore mis en œuvre, mais les concepts sont déjà surchauffés.