O robô autônomo lança oficialmente o primeiro sistema de caixa preta de coleta de dados corporais da China, XRZero-G0. Este projeto integra uma cadeia completa de coleta de dados sem corpo, inspeção de qualidade, treinamento e avaliação em máquinas reais, acompanhado por um conjunto de dados multimodal de mais de 2.000 horas cobrindo 3.000 tarefas. A solução central envolve operadores usando dispositivos VR e múltiplas câmeras para captura de movimento, sem necessidade de robôs no local. O sistema garante a qualidade dos dados por meio de três inspeções: visão de três câmeras, validação IK de limitadores virtuais e reprodução em máquina real — alcançando uma taxa de eficácia dos dados superior a 85%. Experimentos demonstram que, com uma proporção de 10:1 entre dados sem corpo e dados reais para treinamento, o desempenho é equivalente ao obtido com 500 amostras exclusivamente reais, reduzindo os custos de coleta para um vigésimo do valor original. O sistema também suporta transferência zero-shot entre corpos, resolvendo problemas de variação corporal na implantação de robôs.Autor e fonte do artigo: Leifeng.com
Recentemente, a indústria de agentes embodiados foi inundada por um projeto de código aberto.
Inicialmente, apenas um pequeno círculo circulava a informação de que “alguém havia aberto uma coleção completa de dados corporais”. Fui dar uma olhada com a mentalidade de “ver o que está acontecendo”, mas quanto mais olhava, mais estranho parecia — isso não era simplesmente um conjunto de dados, era todo um sistema de coleta de dados sem ontologia.
Em outras palavras, enquanto outros abrem o código de um trecho, este projeto abre toda a cadeia completa de coleta de dados sem corpo, inspeção de qualidade, treinamento e avaliação em dispositivo real, além de um conjunto de dados multimodal sem corpo de mais de 2.000 horas cobrindo 3.000 tarefas, tudo embalado e disponibilizado integralmente.


Endereço do artigo: https://arxiv.org/abs/2604.13001
Isso ainda é uma primeira vez no país, então pesquisei profundamente o artigo correspondente:
Em resumo, o artigo XRZero-G0 fez duas coisas: primeiro, abriu a "caixa preta" da coleta de dados de robôs, demonstrando passo a passo como coletar um conjunto de dados de alta qualidade com custo extremamente baixo. Segundo, ensina passo a passo como treinar com os dados.
Primeiro, vamos falar sobre coleta de dados. Anteriormente, vocês podem ter ouvido dizer que “coletar dados para a indústria embutida é difícil e caro”, e até mesmo alguém lançou uma afirmação extrema, dizendo que o desenvolvimento da indústria embutida está lento por causa da coleta de dados.
Você vê os grandes modelos: eles consomem texto, que está por toda parte na internet. Os robôs consomem dados físicos, cada um dos quais precisa ser coletado com dinheiro real. Além disso, no passado, a coleta de dados enfrentava três grandes desafios: caro, sujo e não reutilizável — o que constitui o "triângulo impossível" da camada de dados embutidos.

No artigo XRZero-G0, foi apresentada uma solução engenhosa, cujo núcleo é uma única frase: pessoas usam dispositivos para realizar tarefas, sem necessidade de robôs no local.
Alguém já percorreu este caminho antes (por exemplo, o paradigma UMI), mas anteriormente esse método tinha um defeito fatal: os dados coletados eram como uma "caixa preta", e você não sabia se o dispositivo real conseguiria funcionar. Desta vez, o XRZero-G0 passou por três "inspeções", transformando a caixa preta em uma caixa branca transparente.
Primeiro ponto de segurança: três câmeras.
Nos dispositivos portáteis anteriores, havia apenas visão única ou dupla, o que apresentava uma desvantagem: quando as mãos se cruzavam ou o objeto era obstruído pelo braço, os dados eram imediatamente perdidos. A abordagem do XRZero-G0 é direta: o operador usa um óculos VR PICO, com uma câmera global na cabeça e uma câmera em cada punho.

Essas três perspectivas, combinadas com informações de pose de seis graus de liberdade e alinhamento espacial-temporal por meio de computação de borda na mochila, alcançam precisão ≤ 4 mm, independentemente de como você se vire, se incline ou se mova, eliminando completamente problemas de obstrução e deriva.

Segunda inspeção de segurança: instale um limitador virtual.
As pessoas sabem que as articulações humanas são flexíveis e podem fazer ioga, mas os robôs não conseguem. Anteriormente, durante a operação remota, fiz um movimento que o robô não conseguia executar, e o motor queimou. O XRZero-G0 é inteligente: introduz verificação automática de cinemática inversa (IK) para filtrar movimentos que excedam os limites das articulações.
Terceiro ponto de segurança: reprodução em dispositivo real.
Após os dois primeiros filtros, o sistema ainda seleciona aleatoriamente parte dos dados para serem enviados diretamente a um robô braçal real para uma "reprodução em malha aberta". Apenas quando o robô concluir a tarefa com sucesso, esses dados serão considerados armazenados.
Após passar por três níveis de peneira, a taxa de eficácia dos dados armazenados foi elevada para mais de 85%, com disponibilidade igual aos dados de dispositivos reais e velocidade de coleta ainda maior.
Ao analisar os dados do artigo, tarefas simples foram reduzidas de 35 segundos para 15 segundos, acelerando 2,33 vezes; tarefas complexas também ficaram 1,71 vezes mais rápidas. A velocidade máxima de coleta atingiu 93,2 trajetórias por hora. Isso não é melhor do que um dispositivo real?

Mas o acima apenas ensina "como coletar dados de forma mais eficaz"; o mais importante no artigo XRZero-G0 é ensinar "como treinar" os dados.
No treinamento embutido, todos sabem que é preciso combinar dados baratos sem corpo com dados caros de máquinas reais, mas qual é a proporção ideal? Antes, tudo dependia de "alquimia".
A equipe XRZero-G0 fez algo realmente sólido: realizou um experimento sistemático e exaustivo, finalmente descobrindo uma "proporção áurea".
Antes disso, eles compararam três soluções:
▪ 500 dados de máquinas puras (linha de base)
▪ 500 dispositivos reais + 500 sem corpo (1:1)
▪ 50 dispositivos reais + 500 sem corpo (10:1)
O resultado foi surpreendente: a solução de 10:1 alcançou uma taxa de sucesso igual ou até superior à linha de base de 500 dispositivos reais. Em termos simples: você reduz o uso de dados de dispositivos reais em 90%, corta o custo total para um vigésimo do método tradicional e ainda assim obtém um modelo igualmente inteligente. Um aumento de 20 vezes na eficiência de custos.
O artigo explica a causa por trás disso, chamada de "efeito de ancoragem física de poucas amostras".

Ainda não acabou — o modelo treinado com este conjunto de dados também pode realizar transferência cruzada de ontologia em zero-shot.
Como mencionado anteriormente, a operação remota tradicional de máquinas reais teme principalmente a migração do corpo. Se a mesa for elevada em dez centímetros ou se trocar de robô, o sistema simplesmente falha. Mas o XRZero-G0 é do tipo mochila; o operador se move livremente, e durante a coleta, a perspectiva, a altura e a iluminação variam naturalmente e dinamicamente. Esse rico "ruído" permite que o modelo desenvolva uma robustez extremamente alta.
O artigo apresenta detalhes impressionantes: o modelo treinado com esse conjunto de dados híbridos foi implantado diretamente nos EX001 e CX001 sem ter visto dados de máquinas reais, e conseguiu realizar tarefas como arranjar flores, dobrar toalhas e embalar salsichas sem problemas.

Uma breve reflexão sobre o XRZero-G0: o núcleo deste artigo é explicar aos profissionais, como se fosse um manual, como coletar dados de baixo custo e como usar esses dados de forma eficiente.
Todos percebem que a indústria de corporificação está passando de "competir com demos" para "competir com dados". No entanto, há falta de consenso e direção sobre como acumular tempo de dados. O XRZero-G0 ensina à indústria toda a cadeia: coletar dados de forma mais fácil, encontrar a proporção perfeita de dados e, finalmente, alcançar a "transferência zero-shot entre ontologias".
Esse tipo de trabalho engenhoso não pode ser realizado por um único laboratório universitário ou acadêmico famoso; é necessário uma equipe da indústria que compreenda tanto a academia quanto a indústria.
A empresa por trás do XRZero-G0 é a X-Square Robot.
Para entender por que a Ziyouxiang pode desenvolver o XRZero-G0, basta analisar sua escolha de caminho: desde o primeiro dia, a empresa optou por modelos end-to-end e explorou simultaneamente três linhas: VLA, WM e WUM. Todos no setor sabem que esse caminho é inviável sem uma infraestrutura sólida; por isso, desde o WALL-OSS até o XRZero-G0, a Ziyouxiang tem continuamente construído infraestruturas relacionadas à infraestrutura.
Este caminho é difícil, mas correto. Basta olhar para o capital: em menos de dois anos, realizou nove rodadas de financiamento, com avaliação superior a 10 bilhões, e quatro grandes empresas — ByteDance, Meituan, Alibaba e Xiaomi — estão na lista de acionistas.
Quanto à razão pela qual o XRZero-G0 foi totalmente aberto, é ainda mais simples e direta.
O "momento ChatGPT" embutido não pode ser criado por uma única empresa. Quando universidades, equipes pequenas e desenvolvedores individuais puderem usar a cadeia de ferramentas padronizada XRZero-G0 para produzir dados em massa, a roda de dados de toda a indústria realmente começará a girar, e nesse momento, a vantagem competitiva das variáveis independentes estará estabelecida.
No final, confira a página do GitHub do XRZero-G0 e recomendamos que vocês experimentem:
https://github.com/X-Square-Robot/XRZero-G0
