L'équipe de Li Fei-Fei clarifie le concept de « modèle mondial », Sora classé comme rendu

Le 3 juin 2026, l'équipe de World Labs a publié conjointement avec la professeure Fei-Fei Li de l'Université de Stanford un article d'analyse conceptuelle intitulé de manière directe, sans aucune embellie : « Une taxonomie fonctionnelle des modèles du monde ». La première phrase de l'article dévoile un accord implicite dans l'industrie : « Les modèles du monde sont l'un des termes les plus importants et les plus abusés dans le domaine de l'intelligence artificielle actuel. »

Ce contexte, quiconque s'est intéressé à l'industrie de l'IA le connaît bien.

En février 2024, OpenAI a lancé le modèle de génération vidéo Sora, dont le titre du rapport technique affirme clairement : « Modèles de génération vidéo comme simulateurs du monde ». À l'époque, Jim Fan, directeur des robots chez NVIDIA, a laissé sur LinkedIn un commentaire qui a été largement repris par la suite : « Sora est fondamentalement un modèle du monde qui n'autorise qu'une seule action : aucune action ». De l'autre côté, selon des rapports publics, l'équipe IA de Tesla a à plusieurs reprises désigné le composant de prédiction de son système de conduite entièrement autonome comme un « modèle du monde » ou un « simulateur du monde ». Moteurs de jeux, outils de génération 3D, modèles d'intelligence incarnée : divers produits et technologies sont regroupés sous une même étiquette.

Un générateur de vidéos, un réseau de prédiction pour la conduite autonome, un modèle de commande robotique, un moteur physique : qu'ont-ils en commun ? Presque rien. Mais ils sont tous appelés « modèles du monde ».

Après plus de deux ans de confusion conceptuelle, quelqu’un tente enfin de clarifier systématiquement la situation. L’équipe de Li Fei-Fei n’a pas publié de nouveau modèle, ni révélé de nouvelle référence, ni démontré de fonctionnalité produit. Ils ont accompli une chose plus fondamentale : revenir à la source théorique du processus de décision markovien partiellement observable, et réduire tous les systèmes appelés « modèles du monde » sur le marché à trois projections fonctionnelles distinctes d’un même cycle cognitif.

Les trois projections sont respectivement : le rendu, la simulation et la planification. Dans le cadre de classification de World Labs, Sora et les modèles génératifs de vidéos similaires appartiennent à la catégorie du rendu.

Pourquoi un terme peut-il englober autant de significations contradictoires ?

Pour comprendre l'origine de ce chaos, il faut d'abord se poser une question plus fondamentale : quand une entreprise dit « nous travaillons sur un modèle mondial », que signifie-t-elle exactement ?

Pour OpenAI, l'objectif de Sora est de « comprendre et représenter le monde physique dans les vidéos ». Selon le rapport technique, Sora, en apprenant les régularités statistiques à partir de vastes quantités de données vidéo, est capable de générer des images conformes aux connaissances visuelles courantes : un verre qui tombe au sol se brise, un avion en papier lâché vole, et une personne qui marche alterne ses jambes. Ces scènes semblent « comprendre la physique ».

Pour Tesla, le « modèle du monde » est un réseau de neurones dans le système FSD qui prédit les trajectoires de mouvement des participants routiers sur les prochaines secondes. Il doit produire des positions 3D, des vitesses et des orientations précises afin que le module de planification de trajectoire puisse calculer des décisions de conduite sécurisées. Ce modèle n’a pas besoin de produire des pixels ; il génère des vecteurs et des distributions de probabilité.

Pour les entreprises de robotique, un « modèle du monde » est un mécanisme interne de simulation permettant au bras robotique de prédire : « Si je pousse ce verre de 5 cm vers la gauche, va-t-il tomber ? » Il doit comprendre les propriétés des objets, la mécanique des contacts et la stabilité, et produire une évaluation de la faisabilité de l’action.

Les objectifs des trois types d'entreprises sont totalement différents. Les entreprises de génération vidéo s'intéressent à la fidélité des pixels, les entreprises d'automobile autonome à la précision de la prédiction des états physiques, et les entreprises robotiques à la prévisibilité des conséquences des actions. Elles travaillent toutes sur des « modèles du monde », mais ne réalisent pas du tout la même chose.

World Labs pointe directement du doigt le cœur du problème dans son article : ces systèmes portent tous le même nom parce qu'ils reflètent effectivement un aspect de la « compréhension du monde ». Mais chacun ne réalise qu'une seule étape du cycle complet de la cognition, et est présenté par le langage marketing, les médias et les récits financiers comme un modèle complet du monde.

Un autre facteur qui alimente la confusion conceptuelle est la tension intrinsèque au terme lui-même. L’expression « modèle du monde » possède une connotation narrative ambitieuse ; elle évoque davantage d’imaginaire et soutient mieux des valorisations élevées et des récits de financement que « modèle de génération vidéo » ou « modèle de prédiction vidéo ». Lorsque les capacités techniques ne répondent pas aux attentes du public, il devient inévitable que le concept serve d’outil de communication.

What should a complete "world model" have looked like in the 1960s?

Le cadre de classification de World Labs repose sur une théorie apparemment ancienne : les processus de décision markoviens partiellement observables.

Ce cadre décrit un cycle complet d'interaction entre un agent et son environnement. L'agent se trouve dans un certain état de l'environnement, effectue une action qui modifie cet état, puis reçoit une observation partielle via ses capteurs. Cette observation déclenche une mise à jour de son état interne, qui guide ensuite la prochaine action. Le cycle se répète continuellement.

Dans ce cadre, les fonctionnalités complètes d’un « modèle du monde » devraient inclure trois étapes : générer des observations à partir de l’état (pixels, nuages de points, etc., vus par l’œil humain ou captés par des capteurs), prédire l’état suivant à partir de l’action et de l’état actuel (prévoir les changements physiques), et générer une action à partir de l’observation et de l’objectif (planification décisionnelle).

Les modèles linguistiques apprennent les régularités statistiques des séquences de texte, tandis que les modèles du monde apprennent les caractéristiques statistiques de l'espace et du temps. Comment la lumière se reflète sur différentes surfaces matérielles, comment les objets se déplacent sous l'effet de la gravité, comment l'énergie est transférée après une collision entre corps rigides : telles sont les régularités que les modèles du monde doivent capturer.

L'équipe de World Labs souligne dans l'article que tous les systèmes actuellement appelés « modèles du monde » ne sont en réalité que des projections d'un seul des éléments du cycle complet mentionné ci-dessus. Certains systèmes ne font que le rendu « de l'état à l'observation », d'autres uniquement l'inférence d'état « de l'action à l'état suivant », et d'autres encore uniquement la planification « de l'observation à l'action ». Chacun d'eux capture une portion de l'arc du cycle, mais se fait étiqueter comme représentant le cercle entier.

La valeur de ce cadre d'analyse réside dans le fait qu'il fournit un système de comparaison au-delà des discours marketing. Peu importe comment une entreprise habille son produit ; dès qu'on le replonge dans le cycle POMDP pour observer ses entrées, ses sorties et les étapes manquantes, ses limites de capacité deviennent évidentes.

Limites des capacités des rendus, des simulateurs et des planificateurs

Dans la taxonomie de World Labs, la première catégorie est définie comme « renderers ». Son objectif principal est de générer une sortie pixel de haute fidélité adaptée à la perception visuelle humaine. L'entrée est une représentation de l'état d'un environnement (qui peut être une description textuelle, des paramètres de scène 3D ou un encodage implicite), et la sortie est une séquence d'images continues.

L'orientation de l'optimisation du moteur de rendu est la réalisme visuel, et non la précision physique. L'article de World Labs précise explicitement que les bâtiments générés par le moteur de rendu peuvent être « instables », car il ne résout pas réellement les équations de la mécanique des structures ; les éclaboussures de liquide produites peuvent sembler réalistes, mais le volume, le débit et la force d'impact du liquide peuvent ne pas correspondre du tout aux valeurs physiques réelles. Par conséquent, ce type de modèle ne peut pas être utilisé pour la conception architecturale, pour l'entraînement de robots, ni pour toute tâche nécessitant une simulation physiquement précise.

Genie 3 de Google, divers modèles de conversion de texte en vidéo, ainsi que presque tous les outils de génération vidéo par IA, appartiennent à cette catégorie. Sora y est également inclus.

La deuxième catégorie est les « simulateurs ». Leur objectif principal n'est pas de générer des images destinées à être vues par des humains, mais de produire des états précis exploitables pour des calculs ultérieurs. L'entrée est l'état actuel de l'environnement et les forces externes (ou actions), et la sortie est l'état suivant, fidèle aux lois physiques et géométriques du monde réel. Les états générés par le simulateur peuvent être utilisés pour des analyses de contraintes, des calculs de consommation énergétique ou des détections de collisions, et peuvent également servir d'entrée à un moteur de rendu pour générer des visualisations. Toutefois, sa valeur fondamentale réside dans la calculabilité même de l'état.

NVIDIA Omniverse est un exemple typique de ce type de système. Ce n'est pas un modèle natif à l'IA, mais une plateforme de jumeaux numériques qui intègre des moteurs physiques traditionnels et un calcul accéléré par l'IA. World Labs souligne dans l'article que les simulateurs constituent un pont entre le rendu et la planification, mais que le manque de données d'annotation physique 3D de haute qualité constitue un goulot d'étranglement majeur. Selon World Labs, les données utilisées pour former ce type de modèle sont plusieurs ordres de grandeur inférieures aux vidéos disponibles sur Internet.

La troisième catégorie est celle des « planificateurs ». Leur entrée comprend des données d'observation (images de caméra, nuages de points LiDAR, lectures de capteurs tactiles, etc.) et des instructions cibles ; leur sortie est l'action suivante à exécuter. Les modèles VLA (vision-langage-action) et les World Action Models appartiennent à cette catégorie.

Les différences entre les trois catégories ne sont pas de subtiles divergences technologiques, mais une séparation fonctionnelle fondamentale. Le rendu produit des pixels pour les humains, la simulation produit des états pour les machines à calculer, et le planificateur produit des actions pour les exécuteurs. Un système peut posséder simultanément plusieurs capacités, mais lorsque la plupart des systèmes appelés « modèles du monde » ne font en réalité que du rendu, assimiler le « rendu » à la « compréhension du monde » constitue une grave inadéquation cognitive.

Un débat qui dure depuis deux ans : Sora est-il un modèle du monde ?

En février 2024, OpenAI a publié Sora, dont le titre du rapport technique était directement « Video Generation Model as a World Simulator ». Ce terme a immédiatement déclenché de vifs débats dans la communauté académique et chez les développeurs.

Les partisans estiment que les vidéos générées par Sora démontrent une cohérence spatiale 3D, une persistance des objets et une compréhension intuitive certaine des interactions physiques. Un hamburger mordu laisse des marques de dents, un chien qui court dans la neige éclabousse des flocons de neige — ces détails semblent indiquer que le modèle a appris certaines lois physiques.

L'argument central des opposants provient de la définition classique des modèles du monde dans le domaine de l'apprentissage par renforcement : un modèle du monde doit être capable de prédire les transitions d'état en fonction des actions. Autrement dit, étant donné un état actuel et une entrée d'action, le modèle doit produire l'état suivant après l'action. Sora ne peut pas accomplir cela. Les utilisateurs ne peuvent pas dire à Sora « poussez ce verre vers la gauche », puis observer si le verre tombera, dans quelle direction il basculera ou où voleront les éclats.

Le commentaire de Jim Fan capture précisément cette contradiction : « Sora est fondamentalement un modèle du monde, mais il ne permet que l'opération nulle (no-op) comme unique action. » Cela signifie que Sora prédit effectivement l'évolution de l'environnement dans le temps, mais que cette évolution ne subit aucune intervention externe et ne peut progresser qu'en suivant la chaîne causale inhérente aux données vidéo. Il ne réalise pas une simulation interactive, mais simplement une continuation passive d'une séquence d'observations.

Sur la sous-communauté Reddit r/MachineLearning, de nombreux chercheurs en apprentissage par renforcement ont exprimé des critiques plus acerbes : un système qui ne peut pas prédire les transitions d'état en fonction des actions ne peut pas être appelé modèle du monde, mais seulement modèle de prédiction vidéo.

Le cadre de classification de World Labs apporte une réponse définitive à ce débat. Dans le cycle POMDP, les actions constituent l'entrée clé qui déclenche les transitions d'état ; un système sans cette entrée n'est qu'une projection de la phase de « génération d'observations » dans le cycle cognitif complet. Sora est un moteur de rendu, pas un modèle du monde complet, encore moins un simulateur du monde.

Cela ne signifie pas pour autant que Sora n’a aucune valeur. Le rendu résout un problème différent : comment générer des images conformes aux attentes visuelles humaines. Ce problème est en soi extrêmement difficile et présente une énorme valeur commerciale. Le problème réside dans le fait de présenter la capacité de rendu comme une capacité à « comprendre le monde », ce qui peut induire en erreur les décideurs technologiques et les investisseurs, les amenant à croire que ces modèles possèdent déjà des capacités de déduction physique ou d’interaction incarnée.

Valeur industrielle de la clarification des concepts

Définir clairement les limites du concept de « modèle du monde » n’est pas une question académique de nuance linguistique. Cela influence directement le choix technologique, les décisions d’investissement et le niveau de compréhension du public concernant les capacités de l’IA.

Pour une entreprise manufacturière évaluant l’adoption d’un « modèle du monde » pour l’entraînement de robots, il est essentiel de déterminer si ce modèle est un rendu, un simulateur ou un planificateur, afin d’éviter des erreurs coûteuses de plusieurs millions de dollars. Un modèle capable de générer uniquement des images vidéo, aussi réalistes soient-elles, ne peut pas remplacer le calcul précis des forces agissant sur les objets, de leurs trajectoires et des conséquences des collisions.

Pour les institutions d'investissement, distinguer les trois catégories de projections permet d'identifier plus précisément la position technologique d'un projet. Une startup se présentant comme un « modèle du monde », mais dont le produit est en réalité un moteur de rendu, a pour concurrents des entreprises de génération vidéo, et non des plateformes de jumeaux numériques ou des modèles de commande robotique. Cela détermine directement la méthode d'estimation du marché et le choix des entreprises comparables.

Pour la communauté académique, une classification claire est une condition préalable à l'établissement de références comparables. Si le terme « modèle du monde » continue d'être généralisé, les chercheurs auront du mal à définir ce qui constitue une amélioration ou une percée, et l'évaluation par les pairs reposera sur des ambiguïtés.

World Labs souligne également dans l'article que la clarification des concepts n'a pas pour but de créer une opposition. La direction future sera la fusion des trois types de projections. Un modèle qui comprend réellement les propriétés physiques d'un verre devrait être capable de rendre son apparence visuelle, de simuler le processus physique lorsqu'il est renversé, et de planifier la manière dont un bras mécanique peut le saisir de manière stable. Mais avant que la technologie n'atteigne ce stade, comprendre clairement les limites respectives est plus réaliste que de rêver à une fusion.

Selon World Labs dans son article, les simulateurs et les technologies de jumeaux numériques, représentés par NVIDIA Omniverse, ciblent un marché potentiel dépassant mille milliards de dollars dans des domaines tels que les usines, les entrepôts et les chaînes d'approvisionnement. Ce chiffre provient de l'évaluation des fabricants eux-mêmes ; la date à laquelle le marché atteindra réellement cette échelle dépendra de la capacité des simulateurs à surmonter la rareté des données physiques 3D de haute qualité.

Pour le secteur de l'IA à son stade actuel, la compréhension la plus importante est peut-être très simple : générer des vidéos réalistes ne signifie pas comprendre le monde physique ; être appelé modèle du monde ne signifie pas vraiment simuler le monde. Au-delà du langage marketing, examiner quelles entrées un système reçoit, quels résultats il produit et quelles étapes lui manquent dans le cycle POMDP constitue la manière la plus honnête d'évaluer les limites de ses capacités techniques.