Le premier système open-source de collecte de données incarnées XRZero-G0 de Chine est disponible

Le robot autonome open source lance le premier système noir de collecte de données incarnées en Chine, XRZero-G0. Ce projet intègre une chaîne complète comprenant la collecte de données sans corps, le contrôle qualité, l'entraînement et l'évaluation sur robot réel, accompagnée d'un jeu de données multimodales de plus de 2000 heures couvrant 3000 tâches. La solution centrale consiste à capturer les mouvements d'opérateurs portant un casque VR et plusieurs caméras, sans robot présent sur site. Le système garantit la qualité des données grâce à trois niveaux de vérification — vues à trois caméras, validation IK des limites virtuelles et relecture sur robot réel — avec un taux d'efficacité des données dépassant 85 %. Les expériences montrent qu'avec un ratio d'entraînement de 10:1 entre données sans corps et données réelles, les résultats équivalent à ceux obtenus avec 500 données exclusivement réelles, réduisant les coûts de collecte à un vingtième du montant initial. Ce système prend également en charge le transfert zéro-shot entre corps, résolvant ainsi les problèmes de différences corporelles lors du déploiement de robots.

Auteur et source de l'article : Leifengwang

L'industrie de l'embodiment a été envahie récemment par un projet open source.

Au départ, on disait seulement dans de petits cercles que « quelqu’un avait open-sourcé un ensemble complet de jeux de données corporels ». J’ai regardé, juste pour voir, mais plus je regardais, plus je me rendais compte que ce n’était pas simplement un jeu de données, c’était tout un système de collecte de données sans ontologie.

Autrement dit, les autres ouvrent le code d’une seule partie, tandis que celui-ci met à disposition l’ensemble complet du processus : collecte de données sans corps, contrôle qualité, entraînement et évaluation sur appareil réel, ainsi qu’un jeu de données multimodales sans corps de plus de 2000 heures couvrant 3000 tâches, entièrement regroupé.

Adresse du papier : https://arxiv.org/abs/2604.13001

C’est la première fois que cela se produit dans le pays, alors j’ai approfondi l’étude du papier correspondant :

En résumé, l'article XRZero-G0 accompli deux choses : premièrement, il ouvre la "boîte noire" de la collecte de données pour les robots et montre étape par étape comment collecter un ensemble de données de haute qualité à un coût extrêmement faible. Deuxièmement, il guide pas à pas sur la manière d'entraîner les modèles avec ces données.

D'abord, le point un : la collecte de données. Vous avez peut-être déjà entendu dire que « collecter des données pour l'industrie de l'embodiment est difficile et coûteux », voire que certains ont avancé une thèse extrême selon laquelle le développement de l'embodiment ralentit à cause des difficultés de collecte de données.

Les grands modèles consomment du texte, disponible partout sur Internet. Les robots, eux, consomment des données physiques, chacune devant être collectée avec un vrai investissement financier. Par ailleurs, dans le passé, la collecte de données présentait trois gros défis : coûteuse, sale et non réutilisable, constituant ainsi le « triangle de l’impossible » pour la couche de données incarnées.

Dans le papier XRZero-G0, une solution ingénieuse est proposée, résumée en une seule phrase : les travailleurs portent des équipements pour accomplir leurs tâches, sans besoin de robots sur place.

Quelqu’un a déjà emprunté ce chemin (par exemple, le paradigme UMI), mais cette approche présentait auparavant un défaut fatal : les données collectées ressemblaient à une « boîte noire », et vous ne saviez pas si le système réel pouvait fonctionner. XRZero-G0, cette fois-ci, transforme cette boîte noire en une boîte blanche transparente grâce à trois contrôles de sécurité.

Premier point de sécurité : trois caméras.

Les appareils portables précédents ne disposaient que d'une vue unique ou double, ce qui présentait un inconvénient : dès que les mains se croisaient ou qu'un objet était caché par les bras, les données étaient immédiatement perdues. La solution d'XRZero-G0 est directe : elle consiste à faire porter à l'opérateur un casque VR PICO, ainsi qu'une caméra globale au sommet de la tête et une caméra à chaque poignet.

Ces trois angles de vue, combinés aux informations de pose à six degrés de liberté et à l'alignement temporel et spatial effectué par le calcul en périphérie du sac à dos, offrent une précision inférieure ou égale à 4 mm, quel que soit votre mouvement : rotation, inclinaison ou déplacement — aucune obstruction ni dérive ne se produira.

Deuxième contrôle de sécurité : installez un limiteur virtuel.

Les gens connaissent la souplesse des articulations humaines, qui permettent de faire du yoga, mais les robots ne peuvent pas le faire. Lors d'une opération à distance précédente, j'ai effectué un mouvement que le robot ne pouvait pas réaliser, ce qui a provoqué la surchauffe du moteur. XRZero-G0 est intelligent : il intègre une vérification automatique de la cinématique inverse (IK) pour filtrer les mouvements dépassant les limites articulaires.

Troisième contrôle de sécurité : lecture en direct sur appareil réel.

Après les deux premiers filtres, le système sélectionne aléatoirement un certain nombre de données pour les envoyer directement à un robot à deux bras afin d'effectuer une « reprise en boucle ouverte ». Ces données ne sont considérées comme valides et stockées que si le robot accomplit avec succès la tâche.

Après filtrage en trois étapes, le taux de validité des données entrantes a été porté à plus de 85 %, avec une fiabilité équivalente à celle des données provenant de dispositifs réels, et une vitesse de collecte encore supérieure.

Selon les données du papier, les tâches simples passent de 35 secondes à 15 secondes, soit une accélération de 2,33 fois ; les tâches complexes sont également 1,71 fois plus rapides. La vitesse d'échantillonnage maximale atteint 93,2 trajectoires par heure. N'est-ce pas plus avantageux qu'une machine réelle ?

Mais ce qui précède n'enseigne que « comment collecter des données de manière plus efficace » ; ce qui est plus crucial dans l'article XRZero-G0, c'est d'enseigner « comment entraîner les données ».

Dans l'entraînement incarné, tout le monde sait qu'il faut mélanger des données « bon marché sans corps » et des données « coûteuses sur machine réelle », mais quel est le bon ratio ? Autrefois, on comptait uniquement sur la magie.

L'équipe XRZero-G0 a accompli une démarche particulièrement rigoureuse : une exploration systématique par expérimentation, ayant finalement révélé un « ratio d'or ».

Avant cela, ils ont comparé trois solutions :

▪ 500 données de machines pures (ligne de base)

▪ 500 appareils réels + 500 sans corps (1:1)

▪ 50 appareils réels + 500 sans corps (10:1)

Résultat inattendu : la solution à 10:1 atteint une réussite équivalente, voire supérieure, à la ligne de base de 500 appareils réels. En termes simples : vous réduisez la consommation de données d'appareils réels de 90 %, divisez le coût total par vingt par rapport à la méthode traditionnelle, et le modèle entraîné est tout aussi intelligent. Une amélioration de 20 fois de l'efficacité coûts.

L'article explique la raison derrière cela, appelée "l'effet d'ancrage physique à faible échantillon".

Ce n'est pas fini — le modèle entraîné avec ces données peut également effectuer une migration inter-ontologique à zéro échantillon.

Comme mentionné précédemment, la téléopération traditionnelle sur machine réelle craint le plus la migration du corps. Une augmentation de dix centimètres de la hauteur de la table ou le remplacement d'un robot entraîne directement une défaillance. Toutefois, XRZero-G0 est conçu sous forme de sac à dos ; l'opérateur se déplace librement, ce qui fait que, pendant le processus d'acquisition, le point de vue, la hauteur et l'éclairage varient naturellement et de manière dynamique. Ce type de « bruit » riche permet au modèle de développer une robustesse exceptionnelle.

L'article présente des détails très impressionnants : le modèle entraîné avec ce jeu de données hybride, déployé directement sur EX001 et CX001 sans avoir jamais vu de données réelles, a réussi à réaliser des tâches telles que disposer des fleurs, plier des serviettes et emballer des saucisses.

Partagez simplement vos réflexions sur XRZero-G0 : ce papier expose, comme un manuel, de manière détaillée et claire, les deux aspects fondamentaux — comment collecter des données à faible coût et comment les utiliser efficacement — pour les professionnels.

Tout le monde le ressent : l'industrie de l'embodiment passe de la compétition sur les démonstrations à la compétition sur les données. Toutefois, il manque un consensus et une direction clairs sur la manière d'accumuler du temps d'exploitation. XRZero-G0 enseigne à l'industrie l'ensemble de la chaîne : collecter des données plus facilement, trouver le ratio de données idéal, puis réaliser finalement le transfert zéro-échantillon entre ontologies.

Ce type de travail ingénierie ne peut pas être accompli par un seul laboratoire universitaire ou un chercheur célèbre ; il nécessite une équipe industrielle compétente à la fois en recherche académique et en industrie.

L'entreprise derrière XRZero-G0 est X-Square Robot.

Pour comprendre pourquoi Zidongtian peut réaliser XRZero-G0, il suffit d'examiner leur choix de chemin : depuis le premier jour, l'entreprise a opté pour des modèles end-to-end tout en explorant simultanément trois voies — VLA, WM et WUM. Ceux du secteur savent que cette approche est impossible sans une infrastructure solide ; c'est pourquoi, dès le départ, de WALL-OSS à XRZero-G0, Zidongtian a constamment construit des infrastructures liées à l'Infra.

Ce chemin est difficile, mais il est juste. Regardez le capital : moins de deux ans, neuf levées de fonds, une évaluation dépassant 10 milliards, avec quatre géants — ByteDance, Meituan, Alibaba et Xiaomi — parmi les actionnaires.

En ce qui concerne la raison pour laquelle XRZero-G0 est entièrement open source, c'est encore plus simple et direct.

Le moment « ChatGPT » de l'embodiment ne peut pas être créé par une seule entreprise. Lorsque les universités, les petites et moyennes équipes, ainsi que les développeurs individuels pourront utiliser la chaîne d'outils standardisée XRZero-G0 pour produire des données en masse, la roue des données de l'ensemble du secteur ne commencera véritablement à tourner qu'alors, et à ce moment-là, le fossé protecteur des variables indépendantes sera établi.

Le lien vers la page GitHub de XRZero-G0 est fourni en fin de texte ; nous vous suggérons d’aller y jeter un œil :

https://github.com/X-Square-Robot/XRZero-G0