En 2026, l'industrie de l'IA assiste à l'émergence de l'« IA physique » avec des avancées majeures

Physical AI, a pris le relais.

Auteur de l'article, source :洞见新研社

Depuis le début de l'année 2026, un terme tendance a émergé dans le monde de l'IA : « l'IA physique ».

Huang Renxun a mentionné à plusieurs reprises lors du CES au début de l'année : « La prochaine vague d'IA sera celle qui opère dans le monde physique », et Sun Yuchen a également déclaré récemment avec beaucoup de fanfare : « La rentabilité de l'IA virtuelle est épuisée ; l'IA physique représente la plus grande opportunité des trois prochaines années. »

Du côté industriel, l'entreprise star Figure AI a déclenché un engouement mondial avec une diffusion en direct ininterrompue de cinq jours sur le tri robotisé, tandis que l'entreprise chinoise Zhìyuán Robotics a annoncé la sortie de son 10 000e robot corporel généraliste...

Les commentaires des grands acteurs et les changements réels dans l'intelligence incarnée ont attiré l'attention de l'industrie sur ce récit ambitieux passant de l'intelligence virtuelle à l'exécution physique. Toutefois, de nombreuses personnes se demandent encore si ce qu'on appelle « l'IA physique » constitue un tournant inévitable du développement technologique ou simplement un concept habilement reconditionné.

En 2026, le domaine de l'IA connaît un engouement pour l'« IA physique » ; Jensen Huang affirme que la prochaine vague d'IA sera celle qui opère dans le monde physique. Figure AI a démontré que sa technologie a franchi le seuil critique des démonstrations de laboratoire grâce à une diffusion en direct de cinq jours sur le tri par robot. AgiRobot a atteint la production de la 10 000e unité de robot corporel généraliste. Le cœur de cette technologie réside dans la capacité de l'IA à établir une boucle fermée « perception - raisonnement - action - retour d'information » dans le monde réel. Les moteurs sous-jacents incluent les grands modèles linguistiques qui confèrent aux robots une capacité de compréhension, les modèles mondiaux qui résolvent les problèmes d'action dans le monde physique, et les modèles VLA qui comblent la dernière mile entre la compréhension visuelle et l'exécution correcte. L'IA physique passe désormais de la validation technique à la concrétisation commerciale ; depuis 2026, les financements ont dépassé 110 milliards de yuans, et la concurrence entre dans la phase de production et de livraison en série.

Source :洞见新研社

01 Du « savoir discuter » au « savoir faire »

Avant de répondre à la question ci-dessus, décomposons ce terme professionnel un peu rigide.

L'IA physique, littéralement, désigne une technologie d'intelligence artificielle qui intègre profondément l'IA au monde physique. Toutefois, au cœur même de ce concept, tandis que l'IA virtuelle se charge de « réfléchir et de communiquer », l'IA physique doit nécessairement « percevoir et agir » — elle n'est plus simplement un agent sur écran, mais doit permettre aux machines de percevoir, de comprendre et d'exécuter des opérations complexes dans le monde physique réel.

L'IA physique est une technologie « permettant aux machines autonomes, telles que les robots et les véhicules autonomes, de percevoir, comprendre et exécuter des opérations complexes dans le monde physique réel ». Wang Xiang, membre du comité exécutif de la Société chinoise d'informatique, a présenté de manière systématique ce concept lors du troisième Salon international de la chaîne d'approvisionnement en Chine : « L'IA physique signifie que les systèmes d'IA possèdent une capacité de boucle fermée de 'perception—raisonnement—action—retour d'information' dans le monde réel. »

En clair, l’IA d’autrefois « savait discuter » ; l’IA physique actuelle « sait agir ». Lorsque l’IA quitte la fenêtre de ChatGPT pour entrer dans les usines, entrepôts et foyers du monde réel, c’est précisément ce que l’IA physique cherche à résoudre.

This difference is particularly evident in the developments of two star robot companies this year.

L’un est Figure AI aux États-Unis, qui a utilisé cinq jours consécutifs de diffusion en direct pour démontrer que « les robots peuvent vraiment travailler ». La diffusion en direct a commencé le 14 mai et consistait en trois robots humanoïdes Figure 03 qui se relayaient sur une ligne de production pour trier des colis postaux. La tâche des robots consistait à détecter les codes-barres, saisir les colis, réajuster leur orientation et les placer sur le tapis roulant avec le code-barres vers le bas.

Pendant la diffusion en direct, un robot a fonctionné en continu pendant plus de 33 heures, traitant plus de 40 000 colis. Le fondateur Brett Adcock a déclaré que le robot utilisait le dernier modèle Helix 02 de l'entreprise, en mode « entièrement autonome ».

La signification de la diffusion en direct de Figure AI ne réside pas seulement dans la démonstration de ses capacités technologiques, mais aussi dans la transmission en temps réel au monde entier que la technologie physique IA a franchi le seuil critique du « démonstrateur de laboratoire » : le fait qu'une entreprise diffuse en direct pendant plusieurs jours le fonctionnement continu d'un robot sans rencontrer de problèmes majeurs constitue en soi une déclaration technologique puissante.

La même entreprise chinoise, AgiBot, a organisé un livestream similaire, plaçant son robot AgiBot G2 sur la ligne de production de tablettes du parc technologique Longqi à Nanchang, où il a travaillé aux côtés d'humains sur la ligne MMIT (Multimedia Integration). Les données de test en direct ont montré que le robot a effectué huit heures de travail continu sans aucune anomalie majeure, avec un taux de réussite global dépassant 99,5 % ; chaque étape ne prend que 18 à 20 secondes, permettant de produire 310 unités par heure, une seule unité pouvant assumer la charge de deux étapes.

En plus de Figure AI, Agi Robotics a annoncé en mars la livraison de 10 000 unités du premier robot d'intelligence incarnée universel au monde, passant de 5 000 à 10 000 unités en seulement trois mois, entre décembre 2025 et mars 2026.

En dehors du volume de livraison, Zhiyuan Robotics a révélé que l'entreprise vise un chiffre d'affaires de 10 milliards d'ici 2027. Si l'on se réfère à l'expérience passée des industries émergentes telles que les énergies nouvelles, la conduite autonome ou les puces, une entreprise fondée il y a moins de deux ans qui parvient à une production industrielle à l'échelle de dizaines de milliers d'unités et fixe un objectif de chiffre d'affaires de 10 milliards peut être considérée comme phénoménale dans le domaine des technologies dures.

Les deux entreprises ci-dessus ont démontré, à l'aide de données et de scénarios concrets, que l'IA physique n'a plus besoin de compter sur des commandes à distance ou des scripts prédéfinis pour « performer », mais possède désormais la capacité d'accomplir des tâches complexes de manière autonome dans des environnements réels.

Plus important encore, Zhiyuan est le premier à franchir la barrière des 10 000 unités livrées, liant ainsi sa capacité de production aux commandes en cours, ce qui indique que ce secteur a franchi le cap de la « validation technique » à celui de la « concrétisation commerciale ». Autrement dit, la « faisabilité » de l’IA physique n’est plus en question ; la véritable concurrence a désormais pénétré les eaux profondes de la « praticabilité » et de la « rentabilité ».

02 Les moteurs technologiques de l'explosion de l'IA physique

Alors, la question maintenant est : pourquoi l'IA physique a-t-elle soudainement explosé cette année ? En faisant un retour en arrière, outre la demande commerciale réelle, une série de percées technologiques en ont été le principal moteur.

D'abord, les grands modèles linguistiques (LLM) ont apporté aux robots une « capacité de compréhension ». Les robots traditionnels dépendent de code déterministe et de programmation par règles, ce qui revient à ce que les ingénieurs écrivent à l'avance un « scénario » ; chaque action du robot est exécutée strictement selon les prévisions du scénario. Ce modèle présente un grand défaut : dès que l'environnement de travail du robot change légèrement, le code doit être réécrit, ce qui le rend peu robuste et difficile à commercialiser.

Cependant, après que Google ait tenté de combiner les LLM avec l'exécution physique des robots et ait lancé successivement Google PaLM-E et RT-2 en août 2023, des modèles de langage multimodaux incarnés, les robots peuvent désormais décomposer automatiquement des tâches complexes en plusieurs étapes et les exécuter grâce à des instructions en langage naturel, permettant aux grands modèles de langage de franchir la transition de la « compréhension conversationnelle » à l'« exécution physique ».

Huang Renxun a souligné lors de sa conférence au CES 2026 la nature de cette évolution technologique : l'IA physique constitue en réalité un transfert de contrôle fondamental ; lorsque l'IA physique franchit le point critique de l'évolution technologique, le contrôle passe des codes déterministes écrits par l'homme aux réseaux de neurones dotés de capacités de généralisation et de compréhension des lois physiques.

À ce stade, les robots ne se contentent plus d'« exécuter du code », mais possèdent la capacité de « comprendre les instructions et de planifier leurs actions de manière autonome ».

Si les grands modèles linguistiques ont résolu le problème de la « compréhension », les modèles du monde résolvent le problème de l'« action dans le monde physique » ; le cœur du modèle du monde consiste à permettre à l'IA d'acquérir une compréhension interne des lois régissant le fonctionnement du monde physique.

La plateforme de modèle fondamental d'IA physique Cosmos, présentée par NVIDIA lors du CES l'année dernière, est devenue un événement marquant ; les capacités centrales de ce modèle permettent de générer des données d'actions conformes aux lois physiques à partir de texte ou d'images, permettant aux développeurs d'accélérer le développement d'agents d'IA physique pour les véhicules intelligents, les robots et l'analyse vidéo.

Selon NVIDIA, Cosmos a été formé sur plus de 20 millions d'heures de données réelles, réduisant considérablement la complexité de la simulation et de l'entraînement des modèles. Grâce à ce modèle du monde, les systèmes d'IA peuvent effectuer d'immenses simulations dans un environnement virtuel avant de les transférer au monde physique réel.

La capacité ultime d'un robot n'est pas de « comprendre » ou d'« entendre », mais de « faire correctement ». L'apparition des modèles Vision-Language-Action permet aux robots de traiter simultanément les entrées visuelles, la compréhension du langage et le contrôle des actions, réalisant ainsi une boucle fermée « voir pour agir ».

DeepMind a lancé en septembre dernier le nouveau modèle multimodal d'intelligence embarquée Gemini Robotics 1.5, affirmant qu'il s'agit du premier modèle au monde optimisé pour le raisonnement embarqué ; NVIDIA a quant à lui lancé le modèle open source Isaac GR00T N1.6 spécialement conçu pour les robots humanoïdes, permettant un contrôle complet du corps.

Dans le même temps, le Centre d'innovation des robots humanoïdes de Pékin a open-sourcé le grand modèle XR-1 pour le cervelet incarné, devenant ainsi le premier modèle en Chine conforme à la norme nationale en matière d'intelligence incarnée, entraîné sur plus d'un million de données et capable d'accomplir des tâches complexes de manipulation bilatérale telles que saisir, déplacer, pousser, tirer et faire pivoter.

À ce jour, l'IA physique a réuni les compétences technologiques de base nécessaires à son déploiement : les LLM permettent aux machines de « comprendre » les intentions humaines, les modèles du monde leur permettent de « prédire » les conséquences physiques, et les VLA franchissent la dernière étape pour passer de la « compréhension visuelle » à l'« exécution correcte ». La combinaison de ces trois éléments confère aux robots, pour la première fois, la capacité fondamentale d'exécuter des tâches de manière autonome dans des environnements ouverts.

Bien sûr, les opérations habiles présentent encore des limites ; le contrôle précis des bras et des mains soulève de nombreux problèmes à résoudre. Autrement dit, l'IA physique a obtenu son accès pour « travailler en usine », mais pour véritablement « entrer dans les foyers et servir des boissons », elle doit franchir le seuil qualitatif passant des « mouvements grossiers » à des « opérations fines ».

03 De la vision technique à la capacité de livraison

Il est important de comprendre le passé et le présent de l'IA physique, et maintenant, la question à laquelle l'industrie de l'intelligence incarnée doit faire face est : quels seront les axes de concurrence clés à venir ?

En tirant des leçons de l'évolution de la conduite autonome, nous constatons que la bataille des données ne peut être évitée ; de la même manière, l'intelligence incarnée, qui repose sur une logique similaire, ne peut non plus l'éviter. En général, celui qui possède des données d'entraînement de meilleure qualité détient le pouvoir de décision.

Actuellement dans l'industrie, NVIDIA a établi un avantage compétitif avec Cosmos, dont le modèle, entraîné sur plus de 20 millions d'heures de données réelles, est difficile à reproduire rapidement, tandis que Zhiyuan a réalisé la production en série de 10 000 robots, ce qui signifie qu'il possède une capacité réelle de collecte de données pilotée par les retours, largement considérée dans l'industrie comme un avantage compétitif en matière de données.

Il est à noter que les données nécessaires à la concurrence en matière d'IA physique ne consistent pas simplement à comparer les volumes, mais requièrent une synergie entre données synthétiques et données réelles.

S'appuyer uniquement sur des données réelles présente des défis en termes d'échelle et de coûts de dégradation matérielle, tandis qu'une dépendance excessive aux données synthétiques crée un écart de transfert de la simulation à la réalité (sim2real). La solution « apprentissage multi-sources de données » du Centre d'innovation des robots humanoïdes de Pékin est née de cette approche, permettant aux robots d'entraîner à partir de vastes vidéos humaines, réduisant ainsi considérablement les coûts d'entraînement tout en améliorant l'efficacité.

C’est ainsi que l’on comprend bien : celui qui parviendra véritablement à établir la boucle complète « entraînement avec données synthétiques - affinage avec données réelles - retour des scénarios réels » occupera une position dominante dans cette compétition.

Après la résolution des problèmes de données, la fusion efficace de l'IA physique et de l'IA virtuelle est devenue essentielle pour permettre à l'IA physique de progresser davantage.

Lorsque nous parlons aujourd'hui d'IA physique, nous négligeons souvent une direction : l'IA physique et l'IA virtuelle ne sont pas opposées. Du point de vue de l'architecture technique, un système d'IA physique complet peut être divisé en trois niveaux : le niveau inférieur est la couche de perception (capteurs, reconnaissance visuelle), le niveau intermédiaire est la couche de cognition et de décision (raisonnement par IA), et le niveau supérieur est la couche d'exécution d'actions (commande mécanique).

L'IA virtuelle est principalement chargée de la couche intermédiaire, tandis que l'IA physique doit établir une chaîne complète allant de la perception à l'exécution.

La solution complète « puce + modèle + outils » d'NVIDIA incarne cette approche : la plateforme Jetson Thor fournit la puissance de calcul, le modèle GR00T offre l'intelligence, et la plateforme Isaac fournit la chaîne d'outils de développement. En comparant cette solution, celui qui parviendra à intégrer profondément le logiciel et le matériel à l'avenir pourra non seulement accomplir la boucle fermée de l'IA physique, du « cerveau » aux « membres », mais aussi établir sa propre barrière technologique.

Enfin, le processus de commercialisation de l'IA physique : il y a trois ans, les investisseurs voyaient dans le secteur des robots une vision technologique ; aujourd'hui, les marchés financiers adoptent des critères d'évaluation plus pragmatiques, à savoir la capacité de livraison.

Selon les statistiques des médias, le montant total des financements dans le domaine de l'intelligence incarnée en Chine s'est élevé à 73,5 milliards de yuans pour l'année 2025, avec 744 opérations de financement. Depuis 2026, plus de 37 milliards de yuans supplémentaires ont été investis, portant le total cumulé à plus de 110 milliards de yuans. Toutefois, sous cette floraison, les flux de capitaux ont subi un transfert structurel visible.

En mai 2026, Tianji Intelligence a levé un financement de 1 milliard de yuans en série B, avec pour levier principal un carnet de commandes en main dépassant 10 000 unités au premier trimestre, couvrant 45 entreprises robotiques.

Zhongke Fifth Era a levé un financement de série A de plusieurs centaines de millions de yuans, tout en révélant avoir obtenu des commandes à l'étranger pour plusieurs centaines de millions de yuans.

Vitao Power et Lu Ming Robotics, avec des investisseurs industriels tels que SAIC Shangqi Capital et Mitsubishi Electric entrant successivement, visent à lier la capacité de production à la capacité de livraison de robots.

En revanche, la startup américaine de robots humanoïdes Cartwheel Robotics, bien qu'elle ait une vision technologique, n'a pas eu de commandes pour la soutenir et a déclaré faillite en mars 2026.

Les exemples positifs et négatifs montrent que les capitaux ne paient plus pour des démos impressionnantes, mais uniquement pour la capacité réelle à produire en série.

04 Conclusion

La popularité soudaine de l'IA physique est en réalité une évolution naturelle.

Bien sûr, certains professionnels considèrent que l'« AI physique » est davantage un nouveau concept créé par les marchés financiers, n'étant en réalité qu'une évolution naturelle de l'intelligence incarnée et de la robotique ; toutefois, il ne fait aucun doute que l'émergence de l'AI physique marque clairement le passage de l'industrie de l'IA de l'« intelligence virtuelle » à l'« exécution physique », un processus historique irréversible.

Lors de la dernière vague de concurrence, Figure AI a démontré ses capacités en direct, Agi Robotics a établi des barrières à l'entrée industrielle grâce à la production de masse, et NVIDIA a construit un écosystème de plateforme avec Cosmos et GR00T... La question suivante est : quelle entreprise deviendra l'OpenAI du domaine de l'IA physique ? Quelle application verra en premier le moment « ChatGPT » ?