У Китаї запущено першу відкриту систему збирання даних XRZero-G0

iconMetaEra
Поділитися
AI summary iconКороткий зміст
Відкритий код першої в Китаї системи XRZero-G0 для збору даних з ембодіментом. Цей проект інтегрує повний цикл збору даних без тіла, контролю якості, навчання та реального тестування на роботах, а також поставляється з мультимодальним набором даних обсягом понад 2000 годин, що охоплює 3000 завдань. Основна схема передбачає, що оператор носить VR-обладнання та кілька камер для захоплення рухів — робот на місці не потрібен. Система забезпечує якість даних за допомогою трьох етапів перевірки: трикутний кут огляду камер, перевірка IK віртуальних обмежень та відтворення на реальному роботі — ефективність даних перевищує 85%. Експерименти показали, що навчання з співвідношенням 10:1 між даними без тіла та реальними даними дає результати, порівнянні з 500 чисто реальними записами, при цьому витрати на збір знижуються в 20 разів. Система також підтримує нульову переносимість між різними тілами, вирішуючи проблему розбіжностей між роботами при розгортанні.

Автор статті, джерело: Leiphone

Останнім часом індустрія ембодіментів охоплена відкритим проектом.

Спочатку в невеликому колі поширювалася інформація, що «хтось відкрив у спільноті цілий набір даних для ембодімента». Я, з інтересом «подивитися на цікавинку», заглянув — і чим більше дивився, тим більше зрозумів, що це не просто набір даних, а ціла система збору даних без онтології.

Іншими словами, інші відкривають код, а цей відкритий — цілий ланцюжок зібрання даних без об’єкта, контролю якості, навчання та оцінки на реальному пристрої, а також повний набір мультимодальних даних без об’єкта обсягом понад 2000 годин із 3000 завданнями.

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Адреса статті: https://arxiv.org/abs/2604.13001

Це ще ніколи не траплялося в країні, тому я глибоко вивчив відповідну статтю:

Просто кажучи, у цій статті XRZero-G0 було зроблено дві речі: по-перше, розкрито «чорний ящик» збору даних роботів і детально показано, як зібрати високоякісний набір даних за мінімальну вартість; по-друге, крок за кроком навчено, як навчати моделі на цих даних.

Спочатку про перший пункт — збір даних. Раніше, можливо, ви чули, що «збір даних для робототехнічних галузей складний і дорогий», а деякі навіть висловлювали екстремальні думки, що повільний розвиток робототехніки повністю винен у затримках збіру даних.

Великі моделі споживають текст, який повсюди в інтернеті. Роботи споживають фізичні дані, кожен з яких треба збирати за реальні гроші. Раніше збір даних мав три великі проблеми: дорого, брудно, непридатно для повторного використання — це й утворює «неможливий трикутник» для шару ембоді-даних.

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

У статті XRZero-G0 запропоновано винахідливий розв’язок, суть якого в одному реченні: людина носить пристрій і працює на місці, роботи на місці не потрібні.

Цей шлях вже хтось проходив (наприклад, парадигма UMI), але раніше цей підхід мав смертельний недолік: зібрані дані були як «чорний ящик», і ви не знали, чи працюватиме справжній пристрій. XRZero-G0 цього разу пройшов три «контролі», перетворивши чорний ящик на прозорий білий.

Перший пункт безпеки: три камери.

Раніше портативні пристрої для збору даних мали лише один або два кути огляду, що мало недолік: якщо руки перехрещувалися або об’єкт приховувався за рукою, дані втрачалися. Підхід XRZero-G0 дуже простий: оператору надягають VR-голівку PICO, на голову встановлюють глобальну камеру, а на кожне зап’ястя — по одній камері.

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Ці три кутові перспективи разом із шестиступеневою інформацією про положення та обробка на краю рюкзака для просторово-часової синхронізації забезпечують точність ≤4 мм, незалежно від того, як ви повертаєтеся, нахиляєтеся чи рухаєтеся — проблеми перекриття та зсуву не виникають.

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Другий етап безпеки: встановіть віртуальний обмежувач.

Люди знають, що їхні суглоби гнучкі й дозволяють робити йогу, але роботи — ні. Раніше під час дистанційного керування я виконав рух, якого робот зробити не міг, і в результаті двигуни згоріли. XRZero-G0 дуже розумний — він впроваджує автоматичну перевірку зворотної кінематики (IK), щоб відфільтровувати рухи, що перевищують межі суглобів.

Третій етап безпеки: відтворення на справжньому пристрої.

Після перших двох фільтрів система випадковим чином вибирає частину даних і безпосередньо передає їх реальному роботу з двома руками для «відкритого циклу відтворення». Лише тоді, коли робот успішно виконає завдання, ці дані вважаються внесеними до бази.

Після трьох етапів фільтрації за допомогою воронки ефективність даних, що надходять, була підвищена до 85% і вище, їхня придатність така ж, як у даних з реальних пристроїв, а швидкість збору навіть вища.

Згідно з даними з дослідження, прості завдання скорочені з 35 секунд до 15 секунд — прискорення в 2,33 рази; складні завдання також прискорені в 1,71 рази. Піковий швидкість збору даних досягає 93,2 траєкторій на годину. Чи не краще це, ніж реальний пристрій?

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Але вище навчали лише «як краще збирати дані»; більш важливим у статті XRZero-G0 є навчання тому, «як тренувати» дані.

У навчанні з ембодіментом всі знають, що потрібно поєднувати «дешеві дані без фізичного тіла» з «дорогими даними реальних пристроїв», але як визначити пропорції? Раніше це залежало виключно від досвіду.

Команда XRZero-G0 зробила дуже серйозну роботу, систематично провівши експерименти, і нарешті виявила «золотий перетин».

Раніше вони порівняли три варіанти:

▪ 500 чистих даних з пристроїв (базовий показник)

▪ 500 реальних пристроїв + 500 без тіла (1:1)

▪ 50 реальних пристроїв + 500 без тіла (10:1)

Результат виявився несподіваним: схема 10:1 досягає такої ж або навіть вищої точності, ніж базова лінія з 500 чистими пристроями. Іншими словами: ви зменшуєте використання даних реальних пристроїв на 90%, знижуєте загальні витрати до двадцятої частини від традиційного підходу, а навчена модель залишається такою ж розумною. Зростання ефективності витрат у 20 разів.

Стаття пояснює причини цього, називаючи їх «ефектом малообчислювального фізичного якорювання».

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Ще не закінчилося — модель, натренована на цих даних, може здійснювати «нульовий зразок» міжсуб’єктну переносимість.

Як уже зазначалося, традиційна віддалена керованість реальними пристроями найбільше боїться міграції суб’єкта: підняття столу на десять сантиметрів або заміна робота призводить до повного розладу. Але XRZero-G0 — це рюкзаковий пристрій, де оператор вільно ходить, а під час збору даних кут огляду, висота та освітлення природним чином постійно змінюються. Ця багата «шумова» інформація надає моделі виняткову стійкість.

Дослідження демонструє дуже вражаючі деталі: модель, навчена на цій змішаній множині даних, без будь-яких попередніх даних про реальні пристрої була безпосередньо розгорнута на EX001 і CX001 — і вона успішно виконала такі завдання, як складання квітів, складання рушників та наповнення сосисок.

Перший у країні! «Чорна скриня» ембоді-збору даних офіційно відкрита, ера дорогих ембоді-даних закінчилася

Просто поговоримо про враження від XRZero-G0: основна ідея цієї статті — розкласти на деталі, як у інструкції, два ключових питання: «як отримувати дані з мінімальними витратами» та «як ефективно використовувати ці дані» для фахівців.

Всі відчувають, що галузь ембодімента переходить від «конкурсу демонстрацій» до «конкурсу даних». Однак щодо того, як накопичувати тривалість, у галузі відсутній консенсус і напрямок. XRZero-G0 навчає галузь усій ланцюжковій послідовності: «простіше збирати дані», «знаходити ідеальне співвідношення даних» і, нарешті, досягати «нульового зразка міжонтологічного перенесення».

Ця інженерна робота не може бути виконана окремою лабораторією університету чи зірковим вченим — це повинна бути команда з промисловості, яка розуміє як академічні, так і промислові аспекти.

Компанією, що стоїть за XRZero-G0, є X-Square Robot.

Щоб зрозуміти, чому Zidongbian може розробити XRZero-G0, достатньо подивитися на їхній вибір шляху: компанія з першого дня обрала підхід з енд-ту-енд великою моделлю, одночасно досліджуючи три напрямки — VLA, WM та WUM. У всіх колах відомо, що такий підхід неможливий без міцної інфраструктурної бази, тому з ранніх версій WALL-OSS до XRZero-G0 Zidongbian постійно розбудовувала інфраструктуру, пов’язану з інфраструктурою.

Цей шлях складний, але правильний. Дивіться на капітал: за менше ніж два роки — дев’ять раундів фінансування, оцінка понад 10 мільярдів доларів США, а серед акціонерів — чотири великі компанії: ByteDance, Meituan, Alibaba та Xiaomi.

Щодо причин повного відкриття коду XRZero-G0, це ще простіше і пряміше.

Ембодімента "момент ChatGPT" не може бути створена однією компанією. Коли університети, малі та середні команди, а також окремі розробники зможуть використовувати цей стандартизований інструментарій XRZero-G0 для масового створення даних, тоді справжній індустріальний цикл даних справді почне працювати, і тоді буде побудований бар’єр для самостійних змінних.

На кінці статті наведено GitHub-сторінку XRZero-G0, рекомендуємо вам спробувати:

https://github.com/X-Square-Robot/XRZero-G0

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.