تم إطلاق أول نظام صيني مفتوح المصدر لجمع البيانات المجسدة XRZero-G0

يُطلق الروبوت المستقل XRZero-G0 أول نظام أسود مفتوح المصدر في الصين لجمع البيانات الجسدية. يدمج هذا المشروع سلسلة كاملة تشمل جمع البيانات بدون جسم، والفحص الجودي، والتدريب، وتقييم الجهاز الحقيقي، مع مجموعة بيانات متعددة الوسائط تغطي أكثر من 2000 ساعة و3000 مهمة. يعتمد الحل الأساسي على ارتداء المشغل لجهاز VR وكاميرات متعددة لالتقاط الحركات، دون الحاجة إلى روبوت في الموقع. يضمن النظام جودة البيانات من خلال ثلاث فحوصات أمنية: زوايا الكاميرات الثلاث، التحقق من قيود IK الافتراضية، وإعادة تشغيل الجهاز الحقيقي—مع كفاءة بيانات تتجاوز 85%. أظهرت التجارب أن استخدام نسبة 10:1 بين بيانات بدون جسم وبيانات حقيقية للتدريب يحقق نتائج مكافئة لـ500 عينة بيانات حقيقية فقط، مع خفض تكلفة الجمع إلى واحد من عشرين من التكلفة الأصلية. كما يدعم هذا النظام النقل عبر الأجسام بدون عينات، مما يحل مشكلة اختلاف الأجسام في نشر الروبوتات.

كاتب المقال، المصدر: LeFeng.com

تم تغطية صناعة الجسم المادي مؤخرًا بمشروع مفتوح المصدر.

في البداية، كان يُشار فقط داخل دائرة صغيرة إلى أن "أحد الأشخاص قد أطلق مفتوح المصدر مجموعة بيانات جسدية كاملة". ذهبت لأرى ما يحدث بروح "المشاهدة فقط"، لكن كلما نظرت أكثر، شعرت أن هناك شيئًا غير طبيعي — فهذه ليست مجرد مجموعة بيانات بسيطة، بل إنها نظام كامل لجمع البيانات بدون كيان.

بعبارة أخرى، بينما يُفتح الآخرون كودًا واحدًا، فإن هذا المشروع يُفتح سلسلة كاملة تشمل جمع البيانات بدون كيان + فحص الجودة + التدريب + تقييم على جهاز حقيقي، بالإضافة إلى مجموعة بيانات متعددة الوسائط بدون كيان تضم أكثر من 2000 ساعة وتغطي 3000 مهمة، وكلها معبأة بالكامل.

رابط الورقة: https://arxiv.org/abs/2604.13001

هذا أول مرة يحدث هذا في البلاد، لذا قمت بالتحقيق العميق في الورقة البحثية ذات الصلة:

ببساطة، قام ورقة XRZero-G0 بعمل شيئين: أولًا، فتح "الصندوق الأسود" لجمع بيانات الروبوتات، وعرض خطوة بخطوة كيفية جمع مجموعة بيانات عالية الجودة بتكلفة منخفضة جدًا. ثانيًا، شرح خطوة بخطوة كيفية تدريب النموذج باستخدام البيانات.

أولاً، جمع البيانات. ربما سمعتم من قبل أن "جمع البيانات في الصناعة المتجسدة صعب ومكلف"، بل إن البعض أطلقوا رأياً متطرفًا مفاده أن تباطؤ تطور المجال المتجسد يعود إلى عقبات جمع البيانات.

انظر إلى النماذج الكبيرة، فهي تستهلك النصوص، والتي توجد في كل مكان على الإنترنت. أما الروبوتات فتستهلك بيانات فيزيائية، وكل قطعة منها يجب جمعها بثمن حقيقي. بالإضافة إلى ذلك، في الماضي، كان هناك ثلاثة فخاخ كبيرة في جمع البيانات: التكلفة العالية، والوضوح السيئ، وعدم إمكانية إعادة الاستخدام، وهي ما شكّلت "المثلث المستحيل" لطبقة البيانات الجسدية.

في ورقة XRZero-G0، تم تقديم حل ذكي، جوهره جملة واحدة: الإنسان يرتدي الجهاز للقيام بالعمل، ولا حاجة للروبوتات في الموقع.

في الواقع، سبق أن سلك البعض هذا الطريق (مثل نموذج UMI)، لكن كانت هناك عيوب قاتلة في هذا الأسلوب سابقًا: فبيانات جمعها كانت تشبه "صندوق أسود"، ولم تكن تعرف ما إذا كان الجهاز الفعلي سيشتغل أم لا. لكن XRZero-G0 هذه المرة حوّل الصندوق الأسود إلى صندوق أبيض شفاف من خلال ثلاث "فحوصات أمنية".

التفتيش الأمني الأول: ثلاثة كاميرات.

في الماضي، كانت أجهزة اليد المحمولة لجمع البيانات تمتلك فقط زاوية واحدة أو زاويتين، وكان لهذا عيب: عندما يتقاطع اليدين أو يُحجب الجسم بواسطة الذراعين، تُفقد البيانات فورًا. إن نهج XRZero-G0 مباشر: يُزوّد المشغل بنظارة PICO VR، وكاميرا شاملة فوق الرأس، وكاميرا على معصم كل يد.

مع هذه الزوايا الثلاث بالإضافة إلى معلومات الوضع بست درجات من الحرية، بالإضافة إلى الحوسبة الطرفية في الظهر لمحاذاة الزمن والمكان، تكون الدقة ≤ 4 مليمترات، بغض النظر عن كيفية دورانك أو الانحناء أو المشي، لن تحدث مشكلات التغطية أو التحول.

التفتيش الأمني الثاني: تثبيت جهاز حدودي افتراضي.

يعرف الجميع أن المفاصل البشرية مرنة ويمكنها أداء اليوغا، لكن الروبوتات لا تستطيع ذلك. سابقًا، أثناء التحكم عن بُعد، قمت بحركة لا يستطيع الروبوت أداءها، فاحترقت المحركات. XRZero-G0 ذكي، ويستخدم التحقق التلقائي للحركة العكسية (IK) لتصفية الحركات التي تتجاوز حدود المفاصل.

التفتيش الأمني الثالث: إعادة تشغيل الجهاز الحقيقي.

بعد الانتهاء من المرشحين الأولين، يقوم النظام بسحب عشوائي لجزء من البيانات وإرسالها مباشرة إلى روبوت ذراعين حقيقيين لـ"إعادة التشغيل المفتوحة". فقط عندما يُكمل الروبوت المهمة بنجاح، تُضاف هذه البيانات إلى قاعدة البيانات.

بعد تصفية البيانات عبر مخروط ثلاثي الطبقات، ارتفعت كفاءة البيانات المخزنة إلى أكثر من 85٪، مع توافق في الجودة والموثوقية مع بيانات الأجهزة الحقيقية، بالإضافة إلى سرعة جمع أسرع.

وفقًا للبيانات في الورقة، تم تقليل المهام البسيطة من 35 ثانية إلى 15 ثانية، بزيادة في السرعة قدرها 2.33 مرة؛ كما يمكن تحقيق زيادة في السرعة بنسبة 1.71 مرة للمهام المعقدة. ووصلت سرعة جمع البيانات القصوى إلى 93.2 مسارًا في الساعة. أليس هذا أفضل من الجهاز الحقيقي؟

لكن ما سبق لم يُعلّم سوى "كيفية جمع البيانات بشكل أفضل"، أما النقطة الأكثر أهمية في ورقة XRZero-G0 فهي تعلم الناس "كيفية تدريب البيانات".

في التدريب الجسدي، الجميع يعرف أن عليه دمج "بيانات مجانية بدون جسم" و"بيانات مكلفة من أجهزة فعلية"، لكن ما النسبة المثلى؟ في السابق، كان الجميع يعتمدون على التجربة والخطأ.

فريق XRZero-G0 قام بعمل متين بشكل خاص، حيث أجرى تجارب منهجية شاملة واكتشف في النهاية "النسبة الذهبية".

قبل ذلك، قارنوا بين ثلاث خطط:

▪ 500 بيانات آلة نظيفة (خط أساس)

▪ 500 جهاز حقيقي + 500 جهاز بدون جسم (1:1)

▪ 50 جهازًا حقيقيًا + 500 بدون جسم (10:1)

النتيجة كانت مفاجئة: خطة النسبة 10:1 حققت معدل نجاح مماثل أو حتى أعلى من خط الأساس المكون من 500 جهاز حقيقي. ببساطة: يمكنك خفض استهلاك بيانات الأجهزة الحقيقية بنسبة 90%، وخفض التكلفة الإجمالية إلى واحد من عشرين مقارنة بالطريقة التقليدية، مع الحفاظ على نفس ذكاء النموذج المُدرَّب. تحسن في كفاءة التكلفة بمقدار 20 ضعفًا.

الورقة تشرح السبب وراء ذلك، ويُسمى "تأثير المرجع الفيزيائي القائم على عينات قليلة".

لم ينتهِ الأمر بعد، فالنموذج المدرب على هذه البيانات يمكنه أيضًا تنفيذ نقل عبر الكيانات دون أمثلة.

كما ذُكر سابقًا، فإن التحكم عن بُعد بالآلات الحقيقية التقليدية يخشى بشدة التحول الجسدي. إذا ارتفع الطاولة عشرة سنتيمترات أو تم تغيير الروبوت، ينهار النظام مباشرة. لكن XRZero-G0 هو جهاز مُحمول على الظهر، حيث يتحرك المشغل ذهابًا وإيابًا، مما يجعل الزاوية والارتفاع والإضاءة خلال عملية جمع البيانات تتغير بشكل طبيعي وديناميكي. هذا التنوع الغني من "الضوضاء" يُمكّن النموذج من تطوير قدرة فائقة على المقاومة.

أظهر البحث تفاصيل مذهلة: عندما تم تطبيق النموذج المدرب على مجموعة البيانات المختلطة على EX001 و CX001، دون رؤية أي بيانات من الآلات الحقيقية من قبل، تم نشره مباشرةً ونجح في تنفيذ مهام مثل ترتيب الزهور، وطي المناشف، وتعبئة السجق.

ناقش ببساطة تقييمك لـ XRZero-G0، حيث تتمحور هذه الورقة حول تفكيك وشرح تفصيلي للمهنيين حول موضوعين أساسيين: "كيفية جمع البيانات بتكلفة منخفضة" و"كيفية استخدام البيانات بكفاءة".

يمكن للجميع أن يشعروا بأن صناعة الجسم المادي تنتقل من "التنافس على العروض التوضيحية" إلى "التنافس على البيانات". لكن لا توجد إجماعات أو اتجاهات واضحة داخل الصناعة حول كيفية جمع مدة البيانات. تقوم XRZero-G0 بتعليم الصناعة كامل السلسلة: "جمع البيانات بسهولة أكبر"، و"إيجاد النسبة المثالية للبيانات"، ثم تحقيق "الانتقال عبر الكيانات بدون عينات" في النهاية.

هذا النوع من العمل الهندسي لا يمكن إنجازه من قبل مختبر جامعي واحد أو عالم مشهور بشكل منفرد، بل يجب أن يكون فريقًا صناعيًا يمتلك خبرة في كل من الأكاديميا والصناعة.

الشركة وراء XRZero-G0 هي X-Square Robot.

لفهم لماذا يمكن لـ Zi Dian Liang أن تطور XRZero-G0، ما عليك سوى النظر إلى خيارات مسارها: فقد اختارت الشركة منذ اليوم الأول نموذجًا شاملاً من طرف إلى طرف، مع استكشاف ثلاث مسارات في وقت واحد: VLA وWM وWUM. الجميع في المجال يفهمون أن هذا النهج مستحيل دون قدرات أساسية قوية، لذا من WALL-OSS المبكر إلى XRZero-G0، كانت Zi Dian Liang تبني باستمرار البنية التحتية المتعلقة بالبنية الأساسية.

هذه الطريق صعبة، لكنها صحيحة. انظر إلى رأس المال: في أقل من عامين، جمعت 9 جولات تمويل، وقيمتها تجاوزت عشرة مليارات، وأربع شركات كبرى — ByteDance وMeituan وAlibaba وXiaomi — موجودة جميعها في قائمة المساهمين.

أما بالنسبة لسبب فتح XRZero-G0 بالكامل، فهو أبسط وأكثر مباشرة.

لا يمكن لأي شركة واحدة أن تُنتج لحظة "ChatGPT" المتجسدة بمفردها. عندما تتمكن الجامعات والفرق الصغيرة والمتوسطة والمطورون الأفراد من استخدام سلسلة الأدوات القياسية XRZero-G0 لإنتاج البيانات بكميات كبيرة، سيبدأ عجلة البيانات في الصناعة بالدوران حقًا، وعندها سيتم بناء خندق الحماية للمتغيرات المستقلة.

يُرفق رابط الصفحة الرسمية على GitHub لـ XRZero-G0، نوصي الجميع بتجربته:

https://github.com/X-Square-Robot/XRZero-G0