Récemment, les robots humanoïdes ont connu un tournant historique passant du statut de « luxe » à celui de « prix abordable ».

Auteur et source de l'article : AI Frontière

Récemment, les robots humanoïdes ont connu un tournant historique passant du statut de « luxe » à celui de « prix bas ». Un an plus tôt, les prototypes d'ingénierie coûtaient près d'un million de yuans et étaient vendus sur liste d'attente ; aujourd'hui, ils sont vendus en lot à « 50 000 yuans par camion » sur les sites d'occasion et les marchés de pièces détachées. À l'unité, certains sont même moins chers qu'un smartphone haut de gamme.

L'unité Yushu G1 est désormais disponible à partir de 85 000 yuans, le modèle grand public d'entrée de gamme R1 Air est vendu à seulement 29 900 yuans, tandis que le Bumi de Songyan Power est tombé à 9 998 yuans, soit moins cher qu'un iPhone haut de gamme. Parallèlement, le taux de localisation de la chaîne d'approvisionnement des robots humanoïdes en Chine a dépassé 90 %. Selon le dernier rapport publié par Morgan Stanley, environ 90 % des 13 000 à 16 000 robots humanoïdes livrés dans le monde en 2025 proviendront de fabricants chinois.

Si l'IA actuelle commence déjà à servir de productivité dans le monde numérique, les robots en plein essor pourraient devenir la productivité du monde physique. Dans ce contexte de folie où les prix des produits s'envolent, une question commence à émerger : l'avenir ne nécessitera-t-il que des robots humanoïdes ?

Les données d'enquête de Gartner révèlent un fait objectif : le « taux de réalité » des robots humanoïdes n'est que de 1:60, soit environ 98,36 % des clients interrogés qui restent à la phase d'exploration, tandis que seulement 1,64 % ont réellement déployé ces technologies. « D'un point de vue pratique ou rationnel, nous pensons que les robots du futur n'ont pas nécessairement besoin d'avoir exactement la même apparence que les humains », déclare Gao Ting, vice-président de la recherche chez Gartner.

Récemment, nous avons interviewé Gao Ting, qui a souligné lors de l'échange que, bien que le monde humain soit conçu selon les dimensions du corps humain, la structure corporelle humaine n'est pas nécessairement la meilleure forme pour les robots. Les robots réussis doivent améliorer la forme humaine plutôt que de la copier simplement. Par exemple, le robot Digit testé par Amazon plie les genoux vers l'arrière, ce qui lui permet de s'accroupir plus efficacement devant les étagères qu'un humain ; le robot Eve de 1X utilise un châssis à roues et auto-équilibré pour augmenter l'efficacité de déplacement dans les environnements intérieurs plats. La forme efficace d'un robot peut être canine, à roues ou entièrement nouvelle, conçue selon les besoins spécifiques de la tâche ; ces formes sont généralement plus stables, moins coûteuses et plus rapides que les formes humanoïdes.

« Ne vous limitez pas à la forme humaine ; privilégiez les applications verticales spécifiques capables de livrer rapidement de la valeur et de générer des revenus. » En plus de cela, Gao Ting a cartographié la réalité actuelle de l'industrie robotique selon plusieurs dimensions : technologie, matériel, applications et défis pratiques.

Que peut faire le robot aujourd'hui ?

À court terme, il ne faut pas se concentrer sur « si les robots ressemblent à des humains », mais sur « si les robots peuvent accomplir de manière stable des tâches dans un scénario très précis, réduire les coûts, diminuer la dépendance à la main-d’œuvre et améliorer l’efficacité opérationnelle ».

Alors, qu'est-ce que le robot peut faire aujourd'hui ?

D'après les cas déjà mis en œuvre, la forme que prend le robot n'est pas la plus importante. Que ce soit un bras mécanique dans un entrepôt ou un robot de transport dans une usine automobile, les scénarios les plus faciles à déployer ont tous un point commun : un environnement relativement fixe. Ce qui intéresse finalement les entreprises, c'est de savoir si ce robot peut bien accomplir sa tâche et si l'investissement en vaut la peine, et non s'il ressemble ou non à un humain.

Selon Gao Ting, les scénarios de robots actuellement les plus susceptibles de générer un retour sur investissement présentent généralement trois caractéristiques : des limites de tâche claires, des processus répétables et un nombre relativement limité d'exceptions. Par exemple, la logistique en ligne de production industrielle, le manutention dans les entrepôts et certaines procédures de service peuvent bénéficier d'aménagements sur site pour réduire la complexité que les robots doivent gérer. En revanche, les scénarios domestiques sont différents : les combinaisons de tâches sont plus dispersées, les changements d'environnement plus fréquents, et toute erreur peut avoir un impact direct sur la sécurité des personnes. Par conséquent, les robots domestiques nécessitent non seulement des modèles plus puissants, mais aussi une fiabilité ingénierie plus mature et des mécanismes de sécurité plus robustes.

Quelles sont les opportunités pendant la fenêtre de commercialisation à grande échelle ?

« Les robots sont actuellement à la fenêtre de passage vers la mise à l’échelle et l’industrialisation. » C’est ainsi que Gao Ting définit la phase actuelle de l’industrie robotique. « Actuellement, les robots ont déjà été déployés avec succès dans certains scénarios industriels et commerciaux. En particulier dans les usines et les entrepôts, les robots peuvent déjà remplacer une partie du travail humain pour les tâches répétitives. C’est pourquoi les investisseurs accordent une grande attention à ce secteur, et la valorisation de certaines entreprises leaders a augmenté rapidement. »

Mais un déploiement industriel à grande échelle n'a pas encore eu lieu.

Tesla avait fixé l'objectif de produire environ 5 000 unités d'Optimus en 2025. Toutefois, lors de la publication des résultats du quatrième trimestre 2025, Elon Musk a reconnu qu'Optimus n'effectuait pour l'instant que des tâches de base dans les usines et n'avait pas encore atteint une productivité réelle. Il est rapporté que le troisième robot humanoïde de Tesla sera dévoilé mi-année, mais la production en série ne démarrera qu'en juillet-août 2026.

Les robots, en particulier les robots humanoïdes, présentent un écart significatif entre leur mise en œuvre réelle et les attentes du grand public, ce qui reflète la situation actuelle.

Selon Gao Ting, au cours des 2 à 3 prochaines années, les robots humanoïdes resteront difficiles à commercialiser à grande échelle. « Ces robots humanoïdes continueront probablement d’être déployés dans des environnements relativement fixes, tels que les usines, les entrepôts et la fabrication automobile, pour effectuer des tâches répétitives et à faible complexité. Toutefois, leur déploiement restera principalement limité à des projets pilotes et à des mises en œuvre à petite échelle, plutôt qu’à une substitution complète de la main-d’œuvre. En revanche, les chemins de commercialisation des robots industriels, des robots d’entrepôt, des robots de service et de certains robots polyvalents conçus pour des tâches spécifiques sont plus clairs, car leurs limites de mission sont bien définies, leur retour sur investissement plus facile à calculer, et leur sécurité et leurs processus plus faciles à contrôler. »

Pour les entreprises souhaitant acheter des robots, il recommande : « Premièrement, le point de départ n’est pas d’acheter un robot humanoïde, mais de commencer par identifier des tâches à haute valeur ajoutée et à faible complexité. Deuxièmement, considérez le robot comme un projet de transformation opérationnelle, et non simplement comme un achat de matériel. L’achat du châssis ne suffit pas ; il faut également prendre en compte les processus sur site, la disposition de l’espace, l’intégration IT/OT, la collaboration des employés, etc. Troisièmement, commencez par un pilote, puis élargissez : commencez avec un ou deux scénarios fermés et petits, obtenez des résultats concrets de productivité, puis répliquez. Quatrièmement, privilégiez d’abord les catégories matures, comme les AMR, les bras mécaniques et les robots collaboratifs, tout en suivant à long terme la maturité des robots humanoïdes. »

« Dans l’industrie, il est courant de comparer le stade actuel de développement de l’intelligence incarnée à celui des grands modèles au début : les orientations technologiques deviennent progressivement claires, mais la capacité à les scaler n’est pas encore acquise », explique Gao Ting. Ce parallèle a un certain fondement, mais la mise en œuvre industrielle des robots présente une difficulté supérieure. « Car elle ne dépend pas seulement des données et de la puissance de calcul, mais aussi des capteurs, des systèmes d’entraînement, de la gestion de l’alimentation et de la fiabilité du système. »

VLA reste une voie importante, les modèles mondiaux s'intègrent de plus en plus rapidement dans les systèmes robotiques

Ce que le robot peut ou ne peut pas faire dépend fondamentalement de son « cerveau », c’est-à-dire le modèle de robot.

Gao Ting a déclaré : « VLA est la voie technologique la plus mature pour les modèles robotiques universels. » VLA, qui signifie Vision-Language-Action, fait référence à la vision, au langage et à l'action. La composante « Language » provient des grands modèles linguistiques, permettant aux robots de combiner les informations environnementales et les instructions de tâche pour générer des actions appropriées.

Le rôle du modèle linguistique est de fournir au robot des capacités de compréhension sémantique, de connaissances générales et de planification de tâches. Par exemple, lorsque l'utilisateur dit « la pièce est trop sombre », le robot doit comprendre l'objectif de la tâche sous-jacente et déterminer s'il doit allumer la lumière.

Contrairement aux anciens paradigmes, les modèles VLA commencent par une capacité de généralisation, puis améliorent progressivement la fiabilité dans chaque scénario spécifique. La logique est exactement inversée. « Avant, on commençait par résoudre le problème de fiabilité élevée dans des scénarios spécifiques, puis on tentait de généraliser. Par exemple, on faisait en sorte qu’un robot atteigne une fiabilité extrêmement élevée pour une action particulière, avant de tenter de lui apprendre d’autres tâches. Mais on se rendait compte que cette approche peinait à réaliser une véritable généralisation : on obtenait seulement un robot très spécialisé, incapable de bien accomplir une tâche différente. »

Pour cette nouvelle approche technologique, comme les modèles du monde, Gao Ting a déclaré : « Elle offre une autre perspective : permettre au système d'apprendre les changements d'état et les relations causales dans le monde physique, et de prédire les résultats possibles des actions. Elle ne repose pas nécessairement sur le langage comme couche intermédiaire, mais met davantage l'accent sur la modélisation des lois physiques. Comme un conducteur expérimenté qui, en conduisant, voit une flaque d'eau devant lui et n'a pas besoin de traduire mentalement 'Il y a de l'eau ici, cela pourrait faire déraper, je dois ralentir' — au lieu de cela, la vision déclenche directement une prédiction physique de la trajectoire du véhicule, entraînant un freinage instinctif. Ce que les modèles du monde cherchent à résoudre, c'est précisément cette capacité à prendre des décisions directement, sans avoir à les traduire préalablement en langage. »

Cependant, il estime que « aujourd'hui, la voie principale pour les robots généraux et les robots humanoïdes repose toujours sur les VLA. Bien que les modèles du monde évoluent rapidement, ils sont actuellement principalement utilisés pour la génération de données synthétiques, la simulation, l'évaluation et l'aide à la planification ; les cas où ils sont directement appliqués au contrôle de robots physiques restent encore très précoces. Au cours des deux prochaines années, les VLA resteront probablement la pierre angulaire des modèles d'action robotique, mais les modèles du monde s'intégreront progressivement aux systèmes VLA pour offrir aux robots une compréhension, une planification et une prévisualisation physiques plus robustes. À long terme, il est plus probable qu'une fusion entre VLA et modèles du monde émerge, plutôt qu'une simple substitution des VLA par les modèles du monde. »

Gao Ting a souligné que, actuellement, VLA est l'une des approches de technologie robotique générale les plus proches d'une mise en œuvre technique concrète. Bien qu'il reste encore un grand écart par rapport à une intelligence aussi flexible et universelle qu'un humain, VLA a déjà démontré une valeur pratique significative dans des scénarios aux frontières relativement bien définies, tels que l'entreposage et la fabrication. Au cours des prochains temps, VLA restera très probablement la principale voie vers l'industrialisation des robots.

La « main agile » indispensable : Les compromis d'ingénierie multiples dans la production de masse de robots

Si le modèle est le « cerveau » du robot, alors la main habile en est l'« outil » le plus important. « Pour les robots nécessitant de manipuler des objets, l'effecteur terminal est essentiel ; dans les scénarios d'opération générale, la main habile est particulièrement cruciale. »

Gao Ting a déclaré que tous les manipulateurs mécaniques ne peuvent pas être appelés « mains habiles » ; ils doivent disposer d'une suffisante liberté de mouvement, être capables d'effectuer des opérations précises et s'adapter à la prise d'objets variés.

Au cours des dernières années, les mains robotisées ont connu des progrès significatifs : leur degré de liberté augmente, tout comme leur abordabilité. Toutefois, Gao Ting souligne : « Le défi des mains robotisées ne se limite pas à augmenter le degré de liberté. Pour les applications industrielles, il est plus important de concilier précision de préhension, puissance de sortie, durabilité et coûts de maintenance dans un espace limité. Le produit avec le plus haut degré de liberté n’est pas nécessairement le plus adapté à la production de masse ; chaque tâche exige des compromis différents entre performance et fiabilité. »

Il donne un exemple : « Certains robots haut de gamme à l'étranger, bien qu'ils puissent approcher la main humaine en termes de degrés de liberté et de capacité d'adaptation à la prise grâce à un empilement dense de capteurs et à des systèmes d'entraînement par câbles complexes, ont généralement un prix élevé, oscillant entre plusieurs dizaines de milliers et plusieurs centaines de milliers de yuans, ce qui rend leur déploiement à grande échelle difficile. Certains produits d'entrée de gamme à quelques centaines de yuans ou open source ont abaissé les barrières à l'entrée, mais leur puissance en bout de bras, leur durabilité et leur précision sensorielle nécessitent encore des validations supplémentaires ; à ce stade, ils ne peuvent pas encore remplacer directement la main-d'œuvre humaine. »

Écart de données : la divergence entre simulation et réalité, machine et humain

Aujourd'hui, l'industrie des robots fait encore face à plusieurs défis, dont l'un des principaux goulets d'étranglement est le manque de données de haute qualité. « Les données restent la première barrière à la mise à l'échelle des robots. »

Gao Ting a indiqué que les modèles de langage à grande échelle sont formés à l'aide de données provenant d'Internet, qui sont relativement faciles à obtenir. Toutefois, les données réelles d'opération des robots, telles que les données de télécommande, nécessitent des coûts considérables.

Étant donné qu’il est difficile d’obtenir des données réelles, peut-on utiliser des données de simulation à la place ? Cela touche au deuxième défi : l’écart entre simulation et réalité. Gao Ting souligne que NVIDIA se concentre activement sur les chaînes d’outils de simulation et de données synthétiques, en formant, testant et validant les robots dans des environnements virtuels afin d’augmenter la taille des jeux de données d’entraînement et de réduire les coûts d’essais et d’erreurs dans le monde réel. Les avantages sont un coût faible et une facilité de mise à l’échelle. Toutefois, un problème important subsiste : il existe toujours des différences entre les scénarios simulés et le monde réel. « Même la meilleure simulation reste différente du monde réel. Même si un robot effectue des milliers de correspondances parfaites d’actions dans un moteur virtuel, face à de minimes variations de frottement, de matériaux ou d’éclairage dans le monde réel, les stratégies de contrôle apprises dans l’environnement virtuel peuvent échouer. Ainsi, les données de simulation sont très utiles, mais elles ne peuvent pas encore totalement remplacer les données réelles. »

Certains ont également suggéré : ne pourrait-on pas entraîner directement les robots avec la vaste quantité de vidéos disponibles sur Internet ? Cela réduirait les coûts et faciliterait l’accès aux données, mais cela soulève un nouveau défi : l’« Embodiment Gap » (écart d’incarnation). En termes simples, le corps humain et le corps du robot ne sont pas similaires, ce qui revient à dire que « les yeux ont appris, mais les mains n’ont pas nécessairement appris ». Par conséquent, la transposition directe des vidéos ou des données de mouvements humains vers les robots réduit considérablement l’efficacité.

« La voie la plus réaliste pour l’avenir n’est pas de compter uniquement sur la simulation », dit Gao Ting. « Il s’agit de mettre en place une stratégie de données hybride : en s’appuyant sur des données réelles issues d’interactions avec des robots, incluant la téléguidage, l’enseignement par démonstration et les retours d’exploitation sur site ; tout en intégrant des données comportementales humaines telles que la capture de mouvement et les vidéos en première personne, ainsi que des données de simulation ou synthétiques, afin d’améliorer la généralisation et la fiabilité des modèles robotiques. »

Outre les données, le coût reste l’un des défis auxquels l’industrie robotique fait encore face. « Pour que les robots pénètrent dans tous les secteurs, ils doivent être suffisamment bon marché. » Toutefois, Gao Ting souligne que la chaîne d’approvisionnement chinoise constitue un avantage majeur. « Le robot humanoïde le moins cher de Unitree, le R1 Air, est déjà vendu à moins de 30 000 yuans. Bien qu’il ne puisse pas encore effectuer réellement du travail en usine et soit principalement utilisé à des fins de recherche, l’avantage de la chaîne d’approvisionnement chinoise dans le domaine des robots est déjà évident. »

Les prix chutent, la chaîne d'approvisionnement mûrit, le modèle VLA a été validé comme faisable, et les capitaux affluent. Toutefois, le fossé numérique, les goulets d'étranglement matériels et les défis de coût restent trois murs élevés entravant une adoption généralisée.

La posture la plus rationnelle pour cette industrie n’est peut-être pas de poursuivre le gimmick des « formes humaines », mais de revenir à une question simple : quel problème pratique cette machine peut-elle réellement résoudre pour les gens ? Comme Gao Ting l’a dit : « Ne vous concentrez pas sur l’apparence humaine. » Ce qui compte davantage, c’est « l’utilité ». Et plus important que le prix, c’est la valeur. Cette course industrielle axée sur la productivité, et non sur la forme, vient tout juste de commencer.