Nvidia vient de lancer ce qu'elle appelle le premier modèle omni-ouvert conçu spécifiquement pour l'IA physique. Cosmos 3, dévoilé le 31 mai, intègre la raison, la génération de mondes et les capacités d'action dans un seul système conçu pour aider les robots et les véhicules autonomes à comprendre réellement le monde réel, complexe et imprévisible.
Cosmos 3 peut générer des séquences vidéo prédictives jusqu'à 30 secondes à partir d'entrées textuelles, d'images ou de vidéos, permettant essentiellement à un robot de « visualiser » ce qui va se produire ensuite dans son environnement avant de déplacer un seul actionneur.
Ce que Cosmos 3 fait réellement
Cosmos 3 utilise une architecture Mixture of Transformers, telle que définie par Nvidia, pour traiter simultanément plusieurs types d'entrées. Le modèle prend en charge les modalités sonore et d'action, ce qui signifie qu'un robot équipé de Cosmos 3 peut traiter ce qu'il voit, entend et fait dans un cadre unifié.
L'application pratique repose sur ce qu'on appelle l'apprentissage de politiques de robots. Cosmos 3 sert de fondation aux modèles d'action mondiale, ou WAM, que Nvidia désigne, permettant aux agents incarnés d'opérer dans des environnements qu'ils n'ont jamais rencontrés auparavant.
S'appuyant sur une base établie en 2025
Nvidia a publié plusieurs itérations antérieures tout au long de 2025, incluant des variantes axées sur la prédiction, l'apprentissage par transfert et le raisonnement. Ces modèles antérieurs ont déjà attiré des clients sérieux.
Figure AI, l'entreprise de robotique humanoïde, a adopté la technologie Cosmos pour ses robots bipèdes. Agility Robotics, un autre acteur de la robotique humanoïde, a fait de même. Du côté des véhicules autonomes, Uber, Waabi et Wayve ont tous utilisé des versions précédentes de Cosmos pour leurs efforts en conduite autonome.
Ce que cela signifie pour les investisseurs et le marché dans son ensemble
Pour le secteur de la robotique plus spécifiquement, la nature ouverte de Cosmos 3 pourrait accélérer l'adoption par les petits acteurs qui n'ont pas les ressources pour construire leurs propres modèles mondiaux depuis zéro. La génération de données synthétiques, l'une des capacités fondamentales du modèle, répond à ce qui a historiquement été le plus grand goulot d'étranglement dans le développement de la robotique : obtenir suffisamment de données d'entraînement du monde réel sans détruire du matériel coûteux au processus.

