Du code à la cognition : Une plongée approfondie dans l'évolution des cerveaux robotiques

Auteur : Matt White, chef technologue mondial de l'IA à la Linux Foundation

Compilé par Felix, PANews

Robot humanoïde

Wang Xingxing (PDG d'Unitree Technology) et Matt White

Il y a quelques semaines à Shanghai, un ami de voyage (intelligent, habitué à suivre l'actualité et à observer les choses, mais peu familiarisé avec la robotique) a posé la question à laquelle je m'attendais depuis le début du voyage pendant le dîner.

Les chiens mécaniques qui courent partout, les robots humanoïdes qui démontrent des arts martiaux sur la scène de démonstration de l’entreprise Unitree, et les bras mécaniques qui plient les vêtements — comment fonctionnent-ils ? Sont-ils pilotés par des modèles de langage à grande échelle (LLM) ? Comment cela fonctionne-t-il exactement ? Existe-t-il un modèle de langage qui contrôle leurs mouvements ?

C'est une excellente question, et franchement : dans une certaine mesure, oui, mais la vraie histoire est bien plus intéressante que cela. Les robots que vous voyez sur les réseaux sociaux ne sont pas des ChatGPT dans des coquilles métalliques. Ils fonctionnent sur une pile technologique (une collaboration de plusieurs couches d'IA). Cette pile technologique a évolué plus ces trois dernières années qu'au cours des trente dernières années. Les modèles linguistiques en font partie. Les modèles visuels, les modèles d'action, les arbres de comportement, les boucles de contrôle classiques, ainsi qu'une nouvelle famille de systèmes appelée « modèle du monde », sont également des composants essentiels. Et le « modèle du monde » est probablement le développement le plus important de tous.

Ceci est un article long qui commencera par le début, puis décrira progressivement chaque grande révolution, jusqu'à la phase actuelle : les robots peuvent non seulement réagir au monde, mais aussi l'imaginer.

Un : L'ère pré-LLM : lorsque les robots n'étaient encore que des logiciels

Pendant des décennies, fabriquer des robots signifiait écrire une grande quantité de code, et presque tout ce code n'était pas nécessaire d'apprendre.

Les robots industriels classiques sont des structures en forme de tour constituées de modules soigneusement conçus. Par exemple, le bras mécanique orange utilisé dans les années 90 pour souder les châssis de Toyota, ou BigDog de Boston Dynamics au début des années 2000.

Perception : filtrer les images de la caméra, effectuer une détection des bords et utiliser un appariement géométrique pour identifier la position de la pièce.
Estimation d'état : combinaison des encodeurs de roues, du gyroscope et de l'accéléromètre (fusion de capteurs) pour déterminer la position et la vitesse de déplacement du robot.
Planification : Étant donné une posture cible, calculer un chemin sans collision dans une carte connue à l'aide d'algorithmes tels que A* ou RRT.
Control: At the lowest level, the PID controller adjusts motor torque hundreds or thousands of times per second to follow the path.

Ces niveaux sont généralement écrits par différentes personnes dans différents laboratoires et assemblés avec une extrême précision. Les comportements (par exemple, « si le verre est rouge, le prendre ; sinon, attendre ») sont codés sous forme de machines à états ou d'arbres de comportement : des diagrammes de flux que le robot exécute étape par étape.

Robot humanoïde

Les avantages de cette méthode sont évidents. Elle est prévisible et conforme aux normes de sécurité. C’est pourquoi votre voiture est équipée d’un système de freinage ABS efficace.

Les inconvénients sont tout aussi évidents. Ce type de robot ne peut exercer son intelligence que dans les scénarios prévus par les ingénieurs. Dès qu’il est placé dans une nouvelle usine, sous de nouvelles conditions d’éclairage ou avec des tasses de couleurs différentes, il tombe en panne. Sa capacité de généralisation est presque nulle.

Deuxième point : l'apprentissage automatique s'insère discrètement

Au cours des années 2010, l'apprentissage profond a commencé à résoudre les problèmes au niveau de la perception. Les réseaux de neurones convolutifs (CNN) qui ont battu les humains sur la tâche de classification d'images ImageNet pouvaient être réentraînés pour détecter les points de préhension sur les objets, segmenter les meubles dans une pièce ou reconnaître la posture humaine. Soudainement, le niveau de « perception » au sommet de la pile technologique n'avait plus besoin d'être conçu à la main : vous pouviez simplement le former directement.

Ensuite, le mécanisme d'apprentissage s'est étendu à la couche « contrôle ». Des chercheurs de l'Université de Berkeley, de DeepMind et d'OpenAI ont démontré que l'apprentissage par renforcement (qui permet aux agents robotiques d'essayer des millions de fois dans un environnement simulé et de renforcer les comportements efficaces) peut produire des allures étonnamment habiles, une manipulation d'objets avec les mains (la résolution du Rubik's Cube avec une seule main par OpenAI en 2019 constituant une étape majeure), ainsi que des stratégies de déplacement adaptées à différents types de terrains.

Un autre domaine de recherche parallèle est l'apprentissage par imitation, souvent appelé clonage de comportement : enregistrer des centaines d'essais d'un humain qui commande à distance un robot pour accomplir une tâche, puis entraîner un réseau de neurones à prédire les actions que l'humain prendrait en fonction de ce que le robot observe.

La clé de tout cela réside dans le fait que chaque stratégie apprise est trop étroite. En entraînant un réseau à ramasser un bloc rouge, il ne sait pas comment gérer une tasse jaune. En l'entraînant à marcher sur l'herbe, il tombe sur le carrelage. La capacité de généralisation reste un défi majeur à résoudre.

Il convient de souligner qu'à cette époque, une infrastructure a été mise en place, qui soutient encore aujourd'hui presque tout : ROS, le Robot Operating System (publié pour la première fois en novembre 2007). ROS n'est pas un système d'exploitation au sens de Windows ou Linux, mais un cadre middleware, un système de tubes robotiques universel. Il permet aux « nœuds caméra », aux « nœuds de navigation », aux « nœuds de contrôle de bras mécanique » et à des dizaines d'autres nœuds de publier et de s'abonner à des messages via un bus partagé.

La version actuelle de ROS2 fonctionne en tant que fondation sous-jacente de la majorité des robots scientifiques et commerciaux à travers le monde, des laboratoires de l'Université de Stanford aux startups chinoises de robots humanoïdes, sans exception. Lorsque les gens parlent du « système d'exploitation » des robots, ils font presque toujours référence à ROS2 accompagné des divers paquets de perception, de planification et de contrôle qui y sont exécutés.

Robot humanoïde

ROS2 : ce n'est pas un système d'exploitation, mais un canal universel permettant à des logiciels robotiques indépendants de communiquer entre eux.

Trois : Utilisation des LLM dans le domaine des robots

Ensuite, ChatGPT est né.

Soudainement, quelque chose est apparu : LLM. Il peut lire des instructions simples en anglais, effectuer un raisonnement en plusieurs étapes, écrire du code et appeler des fonctions. Les roboticiens ont presque immédiatement compris qu'il s'agissait du maillon manquant qu'ils cherchaient depuis des années. La partie la plus difficile pour permettre à un robot d'accomplir des tâches utiles à la maison ou au bureau n'est généralement pas le contrôle des moteurs, mais l'interaction homme-machine : comment les humains indiquent au robot ce qu'il doit faire, et comment le robot décompose cet objectif en actions atomiques qu'il sait déjà exécuter ?

La première approche consistant à appliquer les LLM aux robots consiste à considérer le modèle linguistique comme un compilateur de langage naturel placé au-dessus de ROS. Le modèle est le suivant :

Bring the coffee cup from the kitchen counter and put it on my desk.
LLM génère un plan à partir de la liste des compétences atomiques disponibles pour le robot : ce peut être une séquence d'appels de fonctions, une machine à états ou un arbre de comportement écrit en XML.
Les nœuds ROS2 exécuteront progressivement ce plan. Si une étape échoue, les informations d'échec seront signalées à l'LLM pour qu'il puisse replanifier.

Le projet SayCan de Google en 2022 est une version très concise de cette idée : le LLM propose des compétences, un modèle indépendant de « disponibilité » évalue la probabilité de succès actuelle de chaque compétence, et le robot choisit la combinaison de compétences avec le score conjoint le plus élevé. Des cadres ouverts tels que ROS-LLM, ROSGPT et ROSA, dirigés par le laboratoire de recherche de Huawei, ont popularisé ce modèle.

C'est effectivement un saut significatif. Soudainement, vous pouvez dire au robot : « Nettoie la table et mets les déchets recyclables dans la poubelle bleue », et il tentera d'effectuer des actions raisonnables. Mais attention, il reste encore quelques problèmes : le modèle linguistique se situe toujours au niveau de la planification. Les commandes d'action concrètes sont toujours générées par des contrôleurs sous-jacents soigneusement conçus ou spécialement entraînés. Le modèle linguistique n'est qu'un programmeur intelligent, il ne pilote pas directement.

Robot humanoïde

Quatre : Modèles vision-langage-action (VLA), lorsque le cerveau commence à piloter les robots

Robot humanoïde

Le robot Keenon XMAN-R1 prélève des médicaments sur les étagères dans la pharmacie automatisée de la société Galbot à Pékin. Seulement 100 000 dollars américains.

Le prochain saut sera plus difficile, mais aussi plus important. Les chercheurs ont posé une question plus ambitieuse : et si le modèle pouvait non seulement planifier, mais aussi générer directement des commandes d'action ? Et si, en entrant directement des images de caméra et des instructions linguistiques dans un réseau de neurones, on pouvait obtenir les mouvements articulaires de la milliseconde suivante ?

C'est le modèle vision-langage-action (VLA). Il est actuellement la norme dominante dans les domaines des robots humanoïdes et des robots quadrupèdes.

Le premier robot visuel-linguistique largement connu est le RT-2, lancé par Google DeepMind en 2023. Son innovation réside dans l'utilisation d'un grand modèle visuel-linguistique (déjà formé pour décrire des images et répondre à des questions) et dans la poursuite de son entraînement avec des données de démonstrations robotiques, en traitant les actions robotiques comme d'autres marqueurs à prédire. Le même réseau neuronal, qui pouvait auparavant produire « un chat assis sur un tapis », peut désormais générer une série de marqueurs codant « déplacer la patte droite de 3 cm vers l'avant, fermer la pince, soulever de 5 cm ». L'inférence et l'action sont toutes deux effectuées au sein du même modèle.

Ensuite, au milieu de l'année 2024, une équipe dirigée par l'Université de Stanford a publié OpenVLA, un modèle VLA open source doté de 7 milliards de paramètres, formé sur le jeu de données Open X-Embodiment. Ce dernier regroupe plus d'un million de fragments d'entraînement provenant de 21 laboratoires de recherche différents, couvrant 22 types de corps robotiques distincts. Pour la première fois depuis Google, il était possible de télécharger un modèle robotique généraliste et d'en commencer la modification. Il a transformé l'ensemble du domaine du jour au lendemain.

Aujourd'hui, les principaux VLA, bien que peu nombreux, se développent rapidement :

π0 et π0.5 de Physical Intelligence : une adaptabilité exceptionnelle aux tâches.
NVIDIA Isaac GR00T N1.7 : poids ouverts, licence commerciale, conçu spécifiquement pour les robots humanoïdes, c'est le modèle que la plupart des entreprises chinoises de matériel utilisent actuellement pour un fine-tuning sur leurs propres données.
Helix et Helix-02 de Figure AI : technologie propriétaire, mais cruciale sur le plan de l'architecture.
AgiBot's Genie Envisioner : Plateforme basée sur le modèle mondial chinois.
SmolVLA, NORA, ACoT-VLA, CogACT : de plus en plus de VLA émergent dans le milieu académique, explorant différentes orientations de conception.

Comment fonctionne VLA (sans formules mathématiques)

Vous pouvez imaginer le VLA comme la fusion de trois signaux d'entrée en un seul signal de sortie.

Le premier flux de données est les données visuelles. Des caméras RGB (parfois des capteurs de profondeur ou des LiDAR), parfois des capteurs tactiles sur les pointes des doigts, sont traitées par un encodeur visuel (généralement un modèle Transformer comme DINOv2 ou SigLIP), qui compresse chaque image en quelques centaines de « tokens visuels » résumant ce que le robot voit.

Le deuxième flux de données est le langage. Votre instruction (« Passe-moi le tournevis ») est convertie en tokens, tout comme dans ChatGPT.

Ces deux flux de données sont connectés et entrés dans un « squelette » Transformer (généralement un petit modèle de langage open source comme Qwen3 ou Llama). Ce squelette est chargé de l'inférence, en combinant les informations qu'il voit avec les questions qui lui sont posées.

Troisième flux de données : action, émergeant de l'autre extrémité. C'est ici que les conceptions architecturales divergent :

Jetons d'actions discrètes : le modèle génère directement des jetons pouvant être décodés en angles d'articulation ou en positions d'effecteur final, tout comme ChatGPT génère des mots. Cette approche est simple, mais peut provoquer des saccades lors d'exécutions à haute fréquence.
Tête d'action de diffusion ou de correspondance de flux : un petit réseau indépendant reçoit la sortie du backbone et débruite pour générer une trajectoire lisse des positions articulaires, semblable à un modèle de diffusion d'images, mais en générant du mouvement. C'est ce que fait π0, produisant des actions plus fluides et plus naturelles.
Action chunking : au lieu de prédire une seule instruction suivante, prédire l'ensemble des instructions pour les demi-secondes suivantes afin d'atténuer les secousses.

Robot humanoïde

Dans le modèle VLA : deux flux d'entrée, une sortie d'instruction de mouvement, avec inférence et action intégrées dans un seul réseau.

C’est cette transformation architecturale cruciale : l’inférence et l’action ne sont plus séparées. En enseignant au réseau neuronal à reconnaître un verre, on lui a aussi appris à le saisir. C’est cette couplage qui permet aux VLA de généraliser, alors que leurs prédécesseurs ne le pouvaient pas.

Cinq : Stratégie des deux cerveaux, comment LLM et VLA collaborent

Il existe un détail rarement expliqué dans le marketing : les robots humanoïdes les plus performants aujourd'hui ne fonctionnent pas avec un seul système VLA, mais avec deux modèles fonctionnant à des vitesses différentes qui communiquent entre eux. Cela est parfois appelé architecture double système ou système 1 / système 2, inspirée du cadre psychologique de Daniel Kahneman, qui postule que les humains possèdent un cerveau intuitif rapide et un cerveau réfléchi lent.

Le Helix de Figure AI a rendu ce design classique, et il est désormais presque partout imité (ainsi que ses variantes). En particulier, NVIDIA a adopté ce design dans son GR00T N1.7, et la plupart des robots humanoïdes chinois l'utilisent également. Sa structure est la suivante :

Système 2 (S2) : le cerveau à réflexion lente. Un modèle visuel-linguistique de 7 milliards de paramètres, fonctionnant à une fréquence d'environ 7 à 9 Hz (c'est-à-dire 7 à 9 fois par seconde). Son rôle consiste à observer les scènes, à interpréter les instructions, à effectuer un raisonnement en plusieurs étapes (par exemple, « le bol est derrière la boîte de céréales ; je dois d'abord déplacer la boîte »), et à émettre des intentions de haut niveau — généralement un ensemble de vecteurs internes compacts, et non pas des mots eux-mêmes.
Système 1 (S1) : Cerveau à réaction rapide. Un modèle de stratégie visuo-motrice beaucoup plus petit (environ 80 millions de paramètres) fonctionnant à une fréquence de 200 Hz. Il reçoit le vecteur d'intention de S2 ainsi que les données capteurs les plus récentes, et génère des commandes articulaires continues. Il ne « pense » en aucun sens réel, il réagit simplement.

Récemment, la société Figure a ajouté un System 0 à Helix-02. Il se trouve sous le système cérébral double et constitue une couche réflexe, et non une troisième couche cognitive. Il s'agit d'un réseau de 10 millions de paramètres fonctionnant à une fréquence de 1 kHz, chargé de gérer l'équilibre de base et la coordination corporelle globale, remplaçant plus de 100 000 lignes de code C++ écrit à la main pour le contrôle moteur. Vous pouvez envisager S0 comme une moelle épinière acquise : il ne raisonne ni ne planifie, il se contente de maintenir le corps droit et coordonné, tandis que la pensée est gérée par le système cérébral double supérieur.

Robot humanoïde

L'architecture cérébrale double des robots humanoïdes modernes : le système 2 pense lentement, le système 1 réagit rapidement — avec une couche réflexe du système 0 en dessous pour maintenir l'équilibre, le contact tactile et la coordination corporelle

Cette limitation provient des contraintes physiques. Si une commande de mouvement est envoyée uniquement toutes les 200 millisecondes (la vitesse à laquelle fonctionne un grand VLA), le robot se déplacera avec une lenteur comparable à un mouvement sous l'eau. La fréquence de mise à jour des commandes de mouvement doit dépasser la fréquence naturelle d'oscillation des articulations qu'elles contrôlent, ce qui implique des centaines, voire des milliers de mises à jour par seconde. Aucun modèle Transformer de 7 milliards de paramètres ne peut fonctionner à cette vitesse sur un robot alimenté par batterie.

Ainsi, les tâches cognitives sont réparties : le modèle vaste et lent se charge de la réflexion ; le modèle compact et rapide se charge de l'action. Ils ne communiquent pas en anglais, mais par des vecteurs latents appris : le modèle lent émet des objectifs abstraits, tandis que le modèle rapide sait comment les interpréter.

Six : Problématique du placement du cloud, du calcul en périphérie et du « cerveau »

Où sont effectués tous ces calculs ?

Aujourd'hui, une forte quasi-ideologique consensus s'est presque établi entre les équipes de robots selon lequel les boucles de contrôle essentielles pour la sécurité doivent s'exécuter localement. Pour deux raisons :

Latence. Le temps de trajet aller-retour sur le WiFi ou le réseau cellulaire est d'au moins 30 à 80 millisecondes, tandis que les commandes d'action doivent être mises à jour toutes les 1 à 5 millisecondes. Ce cycle réseau ne peut tout simplement pas fonctionner correctement.

Fiabilité. Les robots fonctionnent dans des usines, des entrepôts, des cuisines, des hôpitaux, etc. La connexion réseau peut être interrompue à tout moment. Si un robot s'arrête dès qu'il perd sa connexion Wi-Fi, il devient un risque pour la sécurité.

Ainsi, la répartition moderne est à peu près la suivante :

Intégré (local), fonctionnant sur des appareils tels que les modules NVIDIA Jetson Thor ou AGX Thor (environ 2 000 TFLOPS, 128 Go de mémoire, consommation de 40 à 130 W) :

Toutes les fonctionnalités de S0/S1 : équilibre, mouvement, contrôle des mouvements fins.
VLA lui-même (système 2), pour s'adapter aux limitations matérielles, est de plus en plus quantifié au format FP8 ou FP4. Des modèles de 2 à 7 milliards de paramètres peuvent désormais être exécutés sur appareil.
Perception, fusion de capteurs, et programme de surveillance sécurisée pouvant couvrir toute autre opération.

Serveur cloud ou distant (le cas échéant) :

Interface conversationnelle (« Hé, robot, qu’est-ce que je devrais préparer pour le dîner ? ») : ces interfaces peuvent tolérer des retards.
Apprentissage par regroupement : Des milliers de robots envoient des données d'exploitation à distance au serveur pour être intégrées au modèle de la prochaine version.
Une planification à long terme à grande échelle est nécessaire, et des modèles de pointe pourraient être utilisés.
Tableau de bord et surveillance de l'opérateur.

En outre, il existe une couche intermédiaire de plus en plus importante : des serveurs périphériques locaux situés dans les usines ou les entrepôts, qui communiquent avec des clusters de robots via des réseaux locaux, avec une latence de seulement quelques millisecondes. Des LLM plus volumineux pourraient être déployés à ce niveau, chargés d'effectuer des tâches d'ordonnancement avancées que chaque robot n'a pas besoin de gérer lui-même.

La vague de robots humanoïdes en Chine repose sur cette hypothèse : Unitree, AgiBot, Xpeng IRON, Fourier, EngineAI. Leurs robots sont équipés d'une capacité de calcul embarquée (généralement Jetson, parfois des puces nationales comme Huawei Ascend), tandis que le cloud est utilisé pour l'apprentissage en cluster et les interfaces conversationnelles, et non pour les boucles de contrôle.

Robot humanoïde

L'emplacement réel où fonctionne le cerveau du robot : les boucles critiques pour la sécurité s'exécutent localement, tandis que le cloud gère les tâches qui peuvent attendre.

Sept : Pourquoi les modèles open source deviennent-ils soudainement le centre d'attention

Si vous ne regardez que les démonstrations, vous pourriez penser que ce domaine est dominé par quelques entreprises américaines bien financées. Mais la réalité est bien plus complexe. La vitesse de développement de l'IA physique est en grande partie déterminée par des modèles de poids open source que n'importe qui peut télécharger et affiner.

Les modèles listés ci-dessous sont peu nombreux, mais ils ont une grande importance :

OpenVLA (Stanford University) : le premier modèle robotique généraliste open source de 7B.
NVIDIA Isaac GR00T (N1, N1.5, N1.7) : des poids open source seront bientôt disponibles, ainsi qu'une licence commerciale ; ce modèle a été formé sur des dizaines de milliers d'heures de vidéos centrées sur l'humain. GR00T N1.7 sera lancé en mars 2026, permettant à tout utilisateur possédant un robot humanoïde d'utiliser gratuitement son architecture à double système.
Physical Intelligence's π0 : release of weights for research.
NVIDIA Cosmos : modèle de base pour mondes ouverts.
AgiBot World : un vaste jeu de données open source provenant d'une startup de Shanghai, incluant des démonstrations de robots humanoïdes pilotés à distance.
LeRobot de Hugging Face : une bibliothèque ouverte qui est devenue le point de convergence de toutes ces plateformes.
mimic robotics : mimic-video, un modèle vidéo-action open source, offrant une efficacité échantillonnale 10 fois supérieure à celle des VLA traditionnels.

C’est important pour deux raisons. Tout d’abord, les startups de robots n’ont plus besoin de dépenser des dizaines de millions de dollars pour pré-entraîner un modèle de base : elles peuvent prendre GR00T ou π0, puis effectuer un fine-tuning avec les données de leurs propres robots. Unitree, ZhiJi Dynamics, Booster, Galbot et des dizaines d’autres petites entreprises chinoises font exactement cela. C’est pourquoi une entreprise ne comptant que quelques centaines d’employés peut produire des robots humanoïdes capables de marcher, de parler et de plier des vêtements : elles s’appuient sur une pile technologique open source.

Ensuite, les modèles open source sont la seule approche réaliste pour résoudre les problèmes de sécurité. Si un modèle entièrement fermé fonctionne à l'intérieur d'un robot dans un atelier de production, et que personne à l'extérieur ne peut examiner sa logique d'inférence, cela constitue un cauchemar réglementaire. Les modèles ouverts permettent aux auditeurs, aux chercheurs et aux opérateurs de vérifier concrètement ce sur quoi le robot a été entraîné.

Huit : Quels autres problèmes restent à résoudre ?

Si vous avez regardé suffisamment de vidéos de démonstrations de robots, vous avez certainement aussi vu de nombreuses vidéos de pannes de robots. Les robots actuels basés sur LLM+VLA sont effectivement impressionnants, mais présentent également des limites évidentes. Voici les problèmes qu’ils rencontrent :

Reprise de la tâche en cours. La capacité de VLA à gérer les changements inattendus est supérieure à celle de toute technologie précédente. Mais lorsque les choses se passent vraiment mal (par exemple, une erreur de préhension, un objet qui roule, ou quelqu’un qui entre dans l’espace de travail), retrouver le bon chemin reste un point faible. Le robot répète aveuglément les actions infructueuses.
Efficiency d'échantillonnage. Former un VLA à partir de zéro nécessite des dizaines de milliers d'heures de données d'opération à distance. Les humains apprennent à utiliser un nouvel outil en quelques minutes seulement. Ce décalage d'efficacité est considérable.
Généralisation inter-entités. Un modèle entraîné avec le bras robotique Franka dans le laboratoire de Stanford ne peut pas être parfaitement transféré au robot humanoïde Unitree dans l'entrepôt de Shenzhen. Leurs formes physiques sont différentes.
Tâche à long terme. Toute tâche nécessitant un comportement cohérent de plus de 30 à 60 secondes et comportant plusieurs sous-objectifs est sujette à s'éloigner de son objectif. Une tâche comme « prépare-moi le petit-déjeuner » reste toujours hors de portée.
Connaissances physiques. VLA est formé par imitation, pas par compréhension. Il ne comprend pas réellement le principe selon lequel l'eau se renverse lorsqu'on renverse un verre. Il a simplement vu quelques exemples et prédit ce qui va se produire suivant un modèle de correspondance.
Raisonnement spatial. Bien qu'elles soient multimodales, elles sont étrangement faibles sur des tâches telles que « contourner un obstacle au lieu de le traverser » ou « empiler ces objets sans qu'ils ne tombent ».

Cette dernière série de faiblesses a poussé le domaine à parier sur un modèle radicalement différent.

Neuf : Modèle mondial

Imaginez ceci : et si, au lieu d'entraîner un robot à prédire les actions, on l'entraînait à prédire les conséquences de ces actions ?

Un modèle mondial (World Model) est un réseau de neurones qui, à partir de l'état actuel du monde (généralement une vidéo ou une séquence d'images) et d'une action prédéfinie, prédit comment le monde évoluera ensuite. En termes simples, vous pouvez le considérer comme un prédicteur vidéo intelligent avec un volant : vous lui montrez les dernières secondes d'image provenant d'une caméra et vous lui indiquez « le robot déplacera son bras de 10 cm vers l'avant », et il génère une vidéo réaliste prédisant l'image de la seconde suivante.

Why is this important?

Une fois qu’un modèle du monde est en place, le robot peut réfléchir avant d’agir. Il peut envisager trois à quatre actions candidates différentes, prédire les résultats de chacune, les évaluer et choisir la meilleure option. Tout cela est accompli avant tout mouvement moteur. C’est exactement le fonctionnement des moteurs d’échecs : ils ne mémorisent pas les coups, mais simulent l’avenir. Cette capacité n’avait jamais été réalisée auparavant dans le domaine des robots physiques, car aucun modèle suffisamment précis n’existait pour simuler le monde réel, aussi complexe et varié soit-il.

Robot humanoïde

Les modèles mondiaux permettent aux robots de simuler divers scénarios futurs possibles, de les évaluer et de choisir la meilleure option avant toute activation de moteur.

What will the world model look like in 2026?

Les modèles mondiaux les plus avancés sont nombreux et évoluent rapidement. Voici quelques modèles :

NVIDIA Cosmos : une série de modèles de base pour mondes ouverts, comprenant Cosmos Predict 2.5 (modèle génératif), Cosmos Transfer 2.5 (modèle de simulation contrôlable), Cosmos Reason 2 (répondeur visuel-linguistique pour robots) et le dernier Cosmos Policy. Cosmos Policy va plus loin en sortant directement des actions pour le contrôle après un post-entraînement des modèles mondiaux. Cosmos est entraîné sur des dizaines de milliers d'heures GPU de données vidéo (Cosmos Predict 2.5 est le modèle mondial de cette série).
DeepMind Genie 3 : un modèle de monde interactif capable de générer des environnements entièrement navigables à partir de prompts textuels, à une fréquence de 24 images par seconde, avec une stabilité continue sur plusieurs minutes. Initialement conçu pour des environnements de jeu.
Meta V-JEPA 2 : plus d'un million d'heures de vidéos web ont été utilisées pour la pré-formation, suivies de seulement 62 heures d'entraînement conditionné par les actions avec des vidéos de robots. Sur des bras robotiques réels dans différents laboratoires, sans aucune formation spécifique à une tâche, une réussite de 80 % en zero-shot pour la saisie et le placement a été atteinte. La méthode « JEPA » diffère fondamentalement sur le plan architecturale des autres approches.
DeepMind Dreamer 4 : a appris à collecter des diamants dans Minecraft (une tâche de 20 000 étapes) en utilisant uniquement des données hors ligne, sans aucune interaction avec l'environnement. Cela démontre qu'un véritable apprentissage par renforcement dans des mondes virtuels est possible.
AgiBot's Genie Envisioner : une plateforme de modèle universel chinoise, formée sur plus de 3000 heures de vidéos d'opérations de robots humanoïdes du monde réel. Il peut générer à la fois des trajectoires prédictives déroulées et des trajectoires d'actions exécutables. AgiBot utilise NVIDIA Cosmos Predict 2 comme réseau de base et effectue un post-entraînement avec ses propres données. C'est exactement le modèle « pile technologique open source + données propres » décrit précédemment.
Toyota Research Institute's world model based on Cosmos: for remote operation data augmentation and navigation.

Robot humanoïde

Les six modèles mondiaux les plus importants pour 2025-2026, chacun proposant une vision différente de la manière dont les machines devraient apprendre la physique.

Dix : architecture alternative, car ce domaine n'est pas encore tranché

La construction d'un modèle du monde ne suit pas de norme unifiée. Le débat sur les architectures est l'un des débats les plus intéressants actuellement dans le domaine de l'IA, et il influence directement ce que les robots pourront faire à l'avenir. Les trois camps suivants méritent d'être surveillés :

Diffusion vidéo au niveau des pixels (école Cosmos/Sora) : utiliser des modèles de diffusion pour prédire les pixels réels des frames futures. Avantage : peut servir de générateur de données synthétiques, capable de rendre des démonstrations de robots entièrement nouvelles jamais vues. Inconvénient : coûteux, parfois en contradiction avec les lois physiques, et prédire des pixels que l'on ne verra jamais constitue un gaspillage.

Architecture de prédiction intégrée conjointement, appelée JEPA (école de LeCun) : ne prédit pas les pixels, mais la représentation abstraite de la prochaine image. Élimine les détails texturaux pour ne conserver que l'essence sémantique des éléments de la scène. Avantage : efficacité, en se concentrant sur les facteurs cruciaux pour l'action. Inconvénient : plus difficile à utiliser. Des modèles tels que V-JEPA, V-JEPA 2 et le nouveau modèle hybride JEPA-VLA explorent ce domaine.

Modèles mondiaux d’actions latentes (famille Genie/Dreamer) : apprendre à compresser une vidéo entière en un « langage d’actions » latent capable de capturer la structure comportementale, puis entraîner un modèle mondial pour prédire l’état latent suivant à partir de l’action latente suivante. Avantage : permet d’entraîner avec des vidéos web sans actions, puis d’ajouter peu de données réelles de robots. Inconvénient : les actions latentes ne sont pas compréhensibles par les humains, ce qui complique l’analyse de sécurité.

Robot humanoïde

Pixel diffusion, JEPA et actions latentes : même objectif, façons radicalement différentes de construire un modèle du monde

十一 : Applications pratiques des robots basés sur des modèles mondiaux

Si on avance de plusieurs années, l'architecture des robots humanoïdes de pointe pourrait ressembler à cela :

VLA est doté d'un modèle mondial. Lorsqu'un robot rencontre une nouvelle situation, il effectue des opérations similaires à celles-ci :

VLA a proposé quelques options de suites à donner (c'est toujours une stratégie).
Le modèle mondial prend chaque action candidate et simule une vidéo hypothétique de 1 à 3 secondes.
Les juges de valeur attribueront des notes en fonction des résultats imaginés : le verre a-t-il été soulevé ? Quelque chose est-il tombé ? La personne a-t-elle été heurtée ?
Le robot choisira l'action avec le score le plus élevé et n'exécutera que sa première partie.
Real sensor data feedback; cyclic repetition.

C'est le contrôle prédictif par modèle, une technologie utilisée depuis des années pour stabiliser les fusées et les drones, mais qui remplace les équations physiques dérivées manuellement par un modèle du monde appris. Son échelle provient du fait que le modèle du monde est pré-entraîné sur des millions d'heures de vidéos, et non parce que quelqu'un a écrit les équations de Navier-Stokes pour un environnement de cuisine.

Ses avantages s'accumulent progressivement :

La situation de récupération s'est améliorée. Si une erreur se produit lors de l'opération de saisie, le modèle mondial peut envisager plusieurs chemins de correction et choisir le plus prometteur.
La capacité de généralisation a été améliorée. Le modèle mondial entraîné sur des vidéos en ligne a été exposé à plusieurs ordres de grandeur plus de phénomènes physiques que tout ensemble de données de téléopération robotique.
La planification à long terme devient maîtrisable. Planifiez dans l’imaginaire, pas dans la réalité.
L'écart entre le simulation et la réalité se réduit. Autrefois, il fallait former des modèles à l'aide de simulateurs personnalisés (par exemple, Isaac Sim, moteur physique Newton), puis espérer que les résultats d'entraînement pourraient être transférés à des applications réelles. Aujourd'hui, il est possible d'entraîner des simulateurs déjà formés pour correspondre aux vidéos réelles. L'écart est donc plus petit.
Les données synthétiques connaissent une croissance exponentielle. Un modèle mondial peut générer presque gratuitement des millions de trajectoires de robots différentes, couvrant diverses conditions d'éclairage, matériaux et configurations d'objets. Cela résout l'un des plus grands goulets d'étranglement du domaine.

De plus, il présente un avantage de sécurité important. Un robot capable de simuler les conséquences d'une action peut refuser d'effectuer une opération dangereuse : non pas en raison de règles prédéfinies, mais parce qu'il anticipe qu'une personne pourrait être blessée dans le futur.

Robot humanoïde

Deux modes de déplacement : VLA réagit en fonction de ce qu'il voit ; les robots avec modèle du monde réfléchissent avant de se déplacer.

Douze : Ce qu'il faut également savoir

Le véritable problème fondamental est celui des données : si l'on ne peut pas alimenter le modèle avec des données, toutes les innovations architecturales du monde ne servent à rien. Actuellement, la téléopération (où des humains portent des équipements VR pour manipuler à distance des robots comme des marionnettes) constitue le principal goulot d'étranglement technologique. L'avantage concurrentiel d'une entreprise de robotique dépend de plus en plus de sa chaîne de collecte de données, et non plus du modèle lui-même. Agi Robotics a déjà établi des entrepôts remplis d'opérateurs. La loi d'extension de la dextérité d'NVIDIA GR00T N1.7 indique que davantage de vidéos en première personne humaine améliorent directement et prévisiblement la dextérité des robots. C'est aussi l'une des raisons pour lesquelles la Chine bénéficie d'un avantage structurel : des coûts de main-d'œuvre pour la collecte de données plus bas, un environnement de déploiement plus tolérant, ainsi qu'une coordination nationale active de la chaîne d'approvisionnement.

La simulation est un univers parallèle. Isaac Sim de NVIDIA, le tout nouveau moteur physique open source Newton (version 1.0 à être publiée officiellement en avril 2026) et la plateforme Omniverse permettent aux entreprises d'entraîner des robots dans des millions d'environnements de simulation simultanés, sans avoir à les déployer dans le monde réel. La plupart des fonctionnalités semblant être de l'« intelligence robotique » sont en réalité développées dans des environnements simulés, puis transférées sur le matériel.

Les bénéfices économiques commencent à se manifester. Unitree a livré environ 5 500 robots humanoïdes en 2025 et prévoit d'atteindre 10 000 à 20 000 unités en 2026. Le prix moyen est passé de 85 000 dollars à 25 000 dollars en deux ans. Le R1 de Unitree est vendu 5 900 dollars. Le prix de lancement de Noetix Bumi est de 1 400 dollars. Les prix du matériel des robots humanoïdes approchent ceux des produits électroniques grand public, tandis que les technologies d'intelligence artificielle intégrées restent en retard par rapport aux démonstrations. Ce écart finira par se combler, moment où la croissance du marché aura un impact significatif sur l'ensemble du secteur.

Les modes de défaillance semblent étranges. Lorsqu’un robot basé sur un LLM tombe en panne, il le fait souvent d’une manière que les robots traditionnels ne peuvent pas accomplir. Par exemple, faire des erreurs avec confiance, percevoir « hallucinairement » certaines fonctionnalités, ou entrer dans un cycle de conversation avec son propre planificateur. Le monde des robots traditionnels exprime un scepticisme considérable à cet égard, ce qui est justifié, car il insiste sur le fait que les systèmes d’apprentissage doivent être surveillés en sécurité et contrôlés dans leur comportement. Les robots les plus fiables actuellement déployés sont hybrides : un cerveau VLA est placé à l’intérieur d’une cage de sécurité conçue à la main.

La métaphore du « moment ChatGPT » est utile mais trompeuse : Jensen Huang a constamment affirmé que le moment ChatGPT des robots est arrivé. Il dit cela parce que NVIDIA vend des pioches et des pelles. Une version plus honnête serait : nous sommes actuellement environ à l’ère GPT-2 de l’IA physique. Elle est puissante et impressionnante ; mais pas encore assez pour être déployée sans surveillance. Elle évolue rapidement, mais n’a pas encore atteint le point de bascule viral, seulement une courbe d’adoption lente et constante.

Conclusion

Robot humanoïde

Évolution du robot quadrupède Unitree (de droite à gauche)

Lors d'une démonstration observée dans les bureaux de Unitree, cinq robots humanoïdes G1 ont exécuté des arts martiaux, avec des mouvements soigneusement chorégraphiés, un contrôleur embarqué de type VLA affiné et un opérateur à distance veillant au bon déroulement de l'ensemble. Fondamentalement, il ne s'agissait pas d'une autonomie complète. Toutefois, l'ensemble du processus — perception, planification, contrôle du mouvement — était déjà remplacé par des réseaux de neurones. Deux ans plus tard, le même robot pouvait accomplir les mêmes mouvements sans chorégraphie préalable, car il avait préalablement conçu l'ensemble des actions et sélectionné la meilleure version.

L'ensemble du parcours décrit dans cet article : depuis les contrôleurs écrits à la main, jusqu'à la perception par apprentissage automatique, puis aux planificateurs LLM, aux VLA, puis à l'architecture à deux systèmes, et enfin aux modèles du monde, correspond en réalité à une évolution lente de l'emplacement de l'intelligence robotique. Il a commencé dans l'esprit des ingénieurs, puis s'est transformé en code écrit à la main, avant d'entrer dans la couche de perception, puis dans le planificateur, puis dans la couche de stratégie. Aujourd'hui, il évolue enfin vers la modélisation du monde lui-même.

Chaque transformation rend les robots plus universels, plus adaptables et plus utiles. Si la transformation du modèle du monde réussit, elle conférera aux robots une capacité réelle : suffisamment puissante pour que la question ne soit plus « Que peuvent faire les robots ? », mais « Que devrions-nous leur faire faire ? »

Lire aussi : Revue des 30 entreprises de robots humanoïdes : lesquelles remporteront en 2026 ?