Lanzado XRZero-G0, el primer sistema de recopilación de datos corporales de código abierto de China

iconMetaEra
Compartir
AI summary iconResumen
El robot autónomo abre el primer sistema de caja negra de recolección de datos corporales en China, XRZero-G0. Este proyecto integra una cadena completa que abarca la recolección de datos sin cuerpo, inspección de calidad, entrenamiento y evaluación en máquina real, junto con un conjunto de datos multimodales de más de 2.000 horas que cubren 3.000 tareas. La solución principal consiste en que el operador use un dispositivo VR y múltiples cámaras para capturar movimientos, sin necesidad de un robot en el lugar. El sistema garantiza la calidad de los datos mediante tres controles de seguridad: perspectivas de tres cámaras, verificación IK de limitadores virtuales y reproducción en máquina real; la eficiencia de los datos supera el 85%. Los experimentos muestran que, con una proporción de 10:1 entre datos sin cuerpo y datos reales para el entrenamiento, el rendimiento es equivalente al de 500 datos puramente reales, reduciendo el costo de recolección a la vigésima parte del original. Además, el sistema admite transferencia cross-body en cero muestra, resolviendo el problema de las diferencias corporales en la implementación de robots.

Autor y fuente del artículo: Leifengwang

Recientemente, la industria de la embodiement ha sido inundada por un proyecto de código abierto.

Al principio, solo se decía en círculos pequeños que "alguien había abierto toda una serie de conjuntos de datos corporales en la comunidad". Fui a echar un vistazo con actitud de "ver qué pasa", pero cuanto más miraba, más me daba cuenta de que esto no era un simple conjunto de datos, ¡sino todo un sistema de adquisición de datos sin ontología!

En otras palabras, mientras que otros abren el código de "un fragmento", este proyecto abre por completo una cadena integral de recolección de datos sin cuerpo, inspección de calidad, entrenamiento y evaluación en dispositivos reales, junto con un conjunto de datos multimodales sin cuerpo de más de 2000 horas que cubre 3000 tareas, todo completamente empaquetado y disponible.

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Dirección del artículo: https://arxiv.org/abs/2604.13001

Esto es algo sin precedentes en el país, así que investigué a fondo el artículo correspondiente:

En resumen, el artículo XRZero-G0 realiza dos cosas: primero, abre la "caja negra" de la recopilación de datos robóticos y muestra paso a paso cómo recopilar un conjunto de datos de alta calidad a un costo extremadamente bajo. Segundo, enseña paso a paso cómo entrenar con los datos.

Primero, la recopilación de datos. Anteriormente, es posible que hayan escuchado que "recopilar datos para la industria embódica es difícil y caro", e incluso algunos han lanzado afirmaciones extremas diciendo que el desarrollo lento de la embodicidad se debe a la recopilación de datos.

Los modelos grandes consumen texto, que está por todas partes en internet. Los robots consumen datos físicos, cada uno de los cuales debe recolectarse con dinero real. Además, en el pasado, la recolección de datos enfrentaba tres grandes obstáculos: costoso, sucio e irreutilizable, lo que constituye el "triángulo imposible" de la capa de datos embocados.

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

En el artículo XRZero-G0, se presenta una solución ingeniosa, cuyo núcleo es una sola frase: las personas llevan el equipo para trabajar, y no se necesitan robots en el lugar.

Este camino ya ha sido recorrido por otros (por ejemplo, el paradigma UMI), pero anteriormente este enfoque tenía un defecto fatal: los datos recopilados eran como una "caja negra", y no se sabía si el dispositivo real podría funcionar correctamente. Sin embargo, XRZero-G0 esta vez supera tres "controles de seguridad", convirtiendo la caja negra en una caja blanca transparente.

Primer control de seguridad: tres cámaras.

Los dispositivos portátiles de captura pasada solo tenían una o dos perspectivas, lo cual tenía una desventaja: cuando las manos se cruzaban o el objeto era bloqueado por los brazos, los datos se arruinaban inmediatamente. El enfoque de XRZero-G0 es directo: colocar un casco VR PICO en el operador, una cámara global en la parte superior de la cabeza y una cámara en cada muñeca.

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Estas tres perspectivas, junto con la información de pose de seis grados de libertad y el cálculo en el borde de la mochila para la alineación espaciotemporal, logran una precisión de ≤4 mm, sin importar cómo te gires, te inclines o camines; no ocurrirán problemas de obstrucción ni deriva.

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Segunda inspección de seguridad: instale un limitador virtual.

Todos saben que las articulaciones humanas son flexibles y pueden realizar yoga, pero los robots no pueden. Anteriormente, durante la operación remota, realicé un movimiento que el robot no podía hacer, y como resultado, el motor se quemó. XRZero-G0 es inteligente e introduce la verificación automática de cinemática inversa (IK) para filtrar los movimientos que exceden los límites articulares.

Tercer control de seguridad: reproducción en dispositivo real.

Después de filtrar las dos primeras etapas, el sistema seleccionará aleatoriamente un conjunto de datos y lo enviará directamente a un robot braza real para una "reproducción en bucle abierto". Solo cuando el robot complete exitosamente la tarea, estos datos se considerarán almacenados.

Tras pasar por el tamiz de tres niveles, la tasa de eficacia de los datos ingresados se elevó por encima del 85%, con una disponibilidad igual a la de los datos reales y una velocidad de recolección aún más rápida.

Según los datos del artículo, las tareas sencillas se redujeron de 35 segundos a 15 segundos, lo que representa una aceleración de 2.33 veces; las tareas complejas también son 1.71 veces más rápidas. La velocidad máxima de recolección alcanza 93.2 trayectorias por hora. ¿No es mejor que un dispositivo real?

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Pero lo anterior solo enseña "cómo recopilar datos de mejor manera"; lo más clave en el artículo de XRZero-G0 es enseñar a "entrenar" los datos.

En el entrenamiento empírico, todos saben que hay que combinar datos baratos sin cuerpo con datos costosos de máquinas reales, pero ¿cómo equilibrar la proporción? Antes, todo dependía de la alquimia.

El equipo de XRZero-G0 realizó una tarea especialmente sólida: un exhaustivo experimento sistemático, que finalmente descubrió una "proporción áurea".

Antes de esto, compararon tres propuestas:

▪ 500 datos de máquinas puras (línea de base)

▪ 500 dispositivos reales + 500 sin cuerpo (1:1)

▪ 50 dispositivos reales + 500 sin cuerpo (10:1)

El resultado fue sorprendente: el方案 de 10:1 logró una tasa de éxito igual o incluso mayor que la línea base de 500 máquinas reales. En términos sencillos: redujiste el uso de datos de máquinas reales en un 90%, disminuyendo el costo total a la vigésima parte del método tradicional, y el modelo entrenado es igual de inteligente. Un aumento de 20 veces en la eficiencia de costos.

El artículo explica la causa detrás de esto, llamada "efecto de anclaje físico de pocos ejemplos".

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Aún no termina aquí; el modelo entrenado con estos datos también puede realizar transferencia cruzada de ontologías en cero muestras.

Como se mencionó anteriormente, en la teleoperación tradicional con máquinas reales, lo más temido es la migración del cuerpo. Si la mesa se eleva diez centímetros o se cambia de robot, todo se colapsa. Sin embargo, XRZero-G0 es de tipo mochila, y el operador se mueve libremente, lo que hace que durante la recopilación, la perspectiva, la altura y la iluminación cambien naturalmente y de forma dinámica. Esta rica "niebla" de variaciones, en cambio, permite que el modelo desarrolle una robustez extremadamente alta.

El artículo muestra detalles impresionantes: el modelo entrenado con este conjunto de datos híbridos, al ser implementado directamente en EX001 y CX001 sin haber visto datos de máquinas reales, logró realizar tareas como colocar flores, doblar toallas y empaquetar salchichas sin problemas.

¡Primero en el país! El «caja negra» de recolección de datos encarnados se ha abierto oficialmente: ha terminado la era de los datos encarnados costosos

Una breve reseña de XRZero-G0: el núcleo de este artículo consiste en desglosar, como un manual, para los profesionales del sector, los dos aspectos clave: "cómo recopilar datos a bajo costo" y "cómo utilizar los datos de manera eficiente".

Todos pueden percibir que la industria embodied está pasando de "competir con demos" a "competir con datos". Sin embargo, la industria carece de consenso y dirección sobre cómo acumular duración. XRZero-G0 enseña a la industria toda la cadena: recopilar datos de forma más fácil, encontrar la proporción perfecta de datos y, finalmente, lograr la transferencia cruzada de ontologías sin muestras.

Este tipo de trabajo ingenieril no puede ser realizado por un solo laboratorio universitario o un académico famoso; debe ser llevado a cabo por un equipo de la industria que comprenda tanto la academia como la industria.

La empresa detrás de XRZero-G0 es X-Square Robot.

Para entender por qué AutoX puede lograr XRZero-G0, basta con observar su elección de ruta: desde el primer día, la empresa optó por modelos end-to-end y exploró simultáneamente tres vías: VLA, WM y WUM. Todos en la industria saben que este enfoque es inviable sin una sólida capacidad de infraestructura; por eso, desde WALL-OSS hasta XRZero-G0, AutoX ha estado construyendo constantemente infraestructura relacionada con la infraestructura.

Este camino es difícil, pero es el correcto. Mire el capital: en menos de dos años, ha realizado nueve rondas de financiación, con una valoración superior a mil millones de dólares, y las cuatro grandes empresas —ByteDance, Meituan, Alibaba y Xiaomi— figuran en la lista de accionistas.

En cuanto a la razón por la que XRZero-G0 es completamente de código abierto, es aún más sencilla y directa.

El momento "ChatGPT" embodied no puede ser logrado por una sola empresa en secreto. Cuando universidades, equipos pequeños y desarrolladores individuales puedan usar la cadena de herramientas estandarizada XRZero-G0 para generar datos en masa, la rueda de datos de toda la industria comenzará realmente a girar, y en ese momento se habrá construido el foso protector de las variables independientes.

Al final se incluye la página principal de GitHub de XRZero-G0, se recomienda que todos vayan a probarlo:

https://github.com/X-Square-Robot/XRZero-G0

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.