من الكود إلى الإدراك: غوص عميق في تطور أدمغة الروبوتات

الكاتب: Matt White, كبير المهندسين التقنيين للذكاء الاصطناعي العالمي في مؤسسة لينكس

مُحرّر: فيليكس، PANews

الروبوتات البشرية

وانغ شينغشينغ (المدير التنفيذي لشركة Yushu Technology) و مات وايت

قبل بضعة أسابيع في شنغهاي، سأل صديق سافر معي (شخص ذكي، يتابع الأخبار ويراقب الأمور عادةً، لكنه لا يفهم كثيرًا عن التكنولوجيا الروبوتية) السؤال الذي كنت أتطلع إليه طوال الرحلة أثناء العشاء.

الكلاب الآلية التي نراها تجري في كل مكان، والروبوتات الشبيهة بالإنسان التي تُظهر فنون القتال على مسرح العرض في مكاتب Unitree، والذراع الميكانيكية التي نراها تطوي الملابس. كيف تفعل ذلك؟ هل يتم تشغيلها بواسطة نماذج لغوية كبيرة (LLM)؟ كيف تعمل بالضبط؟ هل هناك نموذج لغوي ما يتحكم في حركاتها؟

هذا سؤال رائع، وبصراحة: إلى حد ما، لكن القصة الحقيقية أكثر إثارة بكثير. البوتات التي تراها على وسائل التواصل الاجتماعي ليست ChatGPT مُغلفة بدرع معدني. فهي تعمل على مجموعة من التقنيات (تعمل أنظمة الذكاء الاصطناعي المتعددة معًا). وقد تغيرت هذه المجموعة التقنية خلال الثلاث سنوات الماضية أكثر مما تغيرت خلال الثلاثين سنة السابقة. نماذج اللغة هي جزء منها. كما أن نماذج الرؤية، ونماذج الحركة، وأشجار السلوك، ودوائر التحكم الكلاسيكية، بالإضافة إلى عائلة ناشئة تُسمى "نماذج العالم"، هي جميعها أجزاء مهمة. وربما تكون "نماذج العالم" أهم تطور على الإطلاق.

هذه مقالة طويلة ستبدأ من البداية، ثم تشرح تدريجيًا كل تغيير كبير، حتى تصل إلى المرحلة الحالية: حيث يمكن للروبوتات ليس فقط التفاعل مع العالم، بل أيضًا تخيله.

أولًا: عصر ما قبل LLM: عندما كانت الروبوتات مجرد برامج

لعقود عديدة، كان تصنيع الروبوتات يعني كتابة كم كبير من الأكواد، وكل هذه الأكواد تقريبًا لم تكن بحاجة إلى التعلم.

الروبوتات الصناعية الكلاسيكية هي هياكل برجية مكونة من وحدات مصممة بدقة. على سبيل المثال، الذراع الميكانيكية البرتقالية التي تلصق هياكل تويوتا في تسعينيات القرن العشرين، أو BigDog من شركة بوسطن ديناميكس في أوائل العقد الأول من القرن الحادي والعشرين.

الإدراك: تصفية لقطات الكاميرا، وتنفيذ كشف الحواف، واستخدام التطابق الهندسي لتحديد موقع القطعة.
تقدير الحالة: دمج مشفرات العجلات والغايروسكوب والتسارع (دمج المستشعرات) لتحديد موقع الروبوت وسرعته.
التخطيط: باستخدام خوارزميات مثل A* أو RRT، احسب مسارًا خاليًا من التصادم في خريطة معروفة بناءً على الوضع المستهدف.
التحكم: في المستوى الأساسي، يقوم مُحكم PID بتعديل عزم الدوران للمحرك مئات أو آلاف المرات في الثانية لتتبع هذا المسار.

يتم كتابة هذه المستويات عادةً من قبل أشخاص مختلفين في مختبرات مختلفة، ثم يتم تجميعها بدقة شديدة. يتم ترميز السلوكيات (مثل "إذا كان الكوب أحمر، فخذها، وإلا فانتظر") كآلات حالة أو أشجار سلوكية: أي مخططات تدفق ينفذها الروبوت خطوة بخطوة.

الروبوتات البشرية

مزايا هذه الطريقة واضحة. فهي قابلة للتنبؤ وتوافق معايير الأمان. وهذا هو السبب في أن سيارتك مزودة بنظام فرامل ABS فعال.

العيوب نفسها واضحة. هذا الروبوت لا يمكنه تفعيل ذكائه إلا في السيناريوهات التي توقعها المهندسون. بمجرد وضعه في مصنع جديد، أو ظروف إضاءة جديدة، أو ألوان أكواب جديدة، فإنه سيتعطل. قدرته على التعميم تكاد تكون صفرًا.

الثاني: تدخل التعلم الآلي بهدوء

في عقد 2010، بدأت التعلم العميق في معالجة مشكلات طبقة الإدراك. يمكن إعادة تدريب الشبكات العصبية التلافيفية (CNN) التي تفوقت على البشر في مهام تصنيف الصور في ImageNet، للكشف عن نقاط الإمساك على الأجسام، أو تقسيم الأثاث داخل الغرف، أو التعرف على وضعيات الإنسان. فجأة، لم تعد طبقة "الإدراك" في قمة هرم التقنية بحاجة إلى تصميم يدوي، بل يمكنك تدريبها مباشرة.

بعد ذلك، انتشرت آلية التعلم إلى طبقة "التحكم". أظهر باحثون من جامعة بيركلي وDeepMind وOpenAI أن التعلم المعزز (الذي يسمح للوكلاء الروبوتيين بتجربة ملايين المرات في بيئات محاكاة وتعزيز السلوكيات الفعالة) يمكن أن ينتج مشيات ماهرة مذهلة، وتحكمًا في الأشياء باليد (كان حل مكعب روبيك بيد واحدة من قبل OpenAI في عام 2019 نقطة محورية)، واستراتيجيات حركة تتكيف مع تضاريس مختلفة.

اتجاه بحث موازٍ آخر هو التعلم بالمحاكاة، المعروف عادةً باسم نسخ السلوك: تسجيل مئات المحاولات التي يتحكم فيها الإنسان عن بُعد بالروبوت لأداء مهمة معينة، ثم تدريب الشبكة العصبية على التنبؤ بالإجراء الذي سيتخذه الإنسان بناءً على ما يلاحظه الروبوت.

المفتاح هنا هو أن كل استراتيجية تم تعلمها ضيقة جدًا. عندما تُدرّب شبكة على التقاط مكعب أحمر، فإنها لا تعرف كيفية التعامل مع كوب أصفر. عندما تُدرّبها على المشي على العشب، فإنها تسقط على الأرضية البلاطية. القدرة على التعميم لا تزال مشكلة تتطلب حلًا عاجلًا.

جدير بالذكر أن هذه الفترة شهدت ظهور بنية تحتية لا تزال تدعم معظم الأشياء حتى اليوم: ROS، نظام تشغيل الروبوتات (الذي تم إصداره لأول مرة في نوفمبر 2007). لا يُعد ROS نظام تشغيل بالمعنى الذي تُفهم به ويندوز أو لينكس، بل هو إطار عمل وسيط، وهو نظام أنابيب روبوتات عام. فهو يسمح لـ"عقد الكاميرا" و"عقد الملاحة" و"عقد تحكم الذراع الميكانيكية" وعشرات العقد الأخرى بنشر وتسجيل الرسائل عبر خط نقل مشترك.

يُشغل الإصدار الحالي من ROS2 طبقة الأساس في معظم الروبوتات العلمية والتجارية حول العالم، من مختبرات جامعة ستانفورد إلى الشركات الناشئة الصينية للروبوتات البشرية، دون استثناء. عندما يتحدث الناس عن "نظام التشغيل" للروبوتات، فإنهم يشيرون غالبًا إلى ROS2 بالإضافة إلى حزم البرمجيات المختلفة للإدراك والتخطيط والتحكم التي تعمل فوقه.

الروبوتات البشرية

ROS2: إنه ليس نظام تشغيل، بل أنبوب عام يسمح لبرامج الروبوتات المستقلة بالاتصال ببعضها البعض

ثالثًا: تطبيقات LLM في مجال الروبوتات

ثم ولد ChatGPT.

فجأة ظهر شيء كهذا: LLM. إنه قادر على قراءة تعليمات إنجليزية بسيطة، وإجراء استدلال متعدد الخطوات، وكتابة التعليمات البرمجية واستدعاء الدوال. وأدرك خبراء الروبوتات فورًا أن هذا هو العنصر المفقود الذي سعوا جاهدين لحله لسنوات عديدة. غالبًا ما لا يكون الجزء الأصعب في جعل الروبوت يؤدي مهام مفيدة في المنزل أو المكتب هو التحكم في المحركات، بل التفاعل بين الإنسان والروبوت: كيف يخبر الإنسان الروبوت بما يجب عليه فعله، وكيف يفك الروبوت هذا الهدف إلى إجراءات ذرية يعرف بالفعل كيفية تنفيذها؟

أول تطبيق لنموذج اللغة الكبير (LLM) على الروبوتات كان اعتبار نموذج اللغة كمُترجم للغة الطبيعية يعمل فوق ROS. النمط هو كالتالي:

احضر كوب القهوة من سطح المطبخ وضعة على مكتبي.
يُنشئ نموذج LLM خطة بناءً على قائمة المهارات الذرية المتاحة للروبوت: يمكن أن تكون سلسلة من مكالمات الوظائف، أو آلة حالة، أو شجرة سلوك مكتوبة بـ XML.
ستنفذ عقدة ROS2 الخطة تدريجيًا. إذا فشل أي خطوة، فسيتم الإبلاغ عن معلومات الفشل إلى LLM ليعيد التخطيط.

مشروع SayCan الخاص بجوجل في عام 2022 هو نسخة مبسطة جدًا من هذا المفهوم: يقدم النموذج اللغوي الكبير مهارات، ويقيم نموذج "إمكانية التنفيذ" مستقل احتمالية نجاح كل مهارة حاليًا، ثم يختار الروبوت مجموعة المهارات ذات أعلى درجة مشتركة. وقد عززت الإطارات المفتوحة مثل ROS-LLM وROSGPT وROSA، التي تقودها مختبرات أبحاث هواوي، هذا النموذج.

هذا بالفعل قفزة كبيرة ذات معنى. فجأة، يمكنك أن تقول للروبوت "نظّف الطاولة وضَع المواد القابلة لإعادة التدوير في سلة المهملات الزرقاء"، وسيحاول تنفيذ بعض الإجراءات المنطقية. لكن لاحظ أن هناك لا تزال بعض المشكلات: نموذج اللغة لا يزال في طبقة التخطيط. تُنشأ أوامر الحركة الفعلية من قبل وحدات تحكم تحتية تم تصميمها بدقة أو تدريبها خصيصًا. نموذج اللغة هو مجرد مُنسق ذكي، ولا يتحمل مسؤولية الدفع.

الروبوتات البشرية

أربعة: نموذج الرؤية-اللغة-الحركة (VLA)، عندما يبدأ الدماغ في قيادة الروبوت

الروبوتات البشرية

يقوم روبوت Keenon XMAN-R1 بأخذ الأدوية من الرفوف في صيدلية آلية تابعة لشركة Galbot في بكين. فقط بسعر 100 ألف دولار أمريكي

القفزة القادمة ستكون أكثر صعوبة وأهمية. اقترح الباحثون سؤالًا أكثر طموحًا: ماذا لو كان النموذج قادرًا ليس فقط على التخطيط، بل أيضًا على توليد أوامر الحركة مباشرة؟ ماذا لو تم إدخال صور الكاميرا وأوامر اللغة مباشرة إلى شبكة عصبية، فتُنتج حركات المفاصل في الملي ثانية التالية؟

هذا هو نموذج الرؤية-اللغة-الحركة (VLA). إنه الآن النموذج السائد في مجالات الروبوتات البشرية والروبوتات ذات الأرجل الأربعة.

أول روبوت بصري-لغوي معروف هو RT-2، الذي أطلقته جوجل ديب مايند في عام 2023. إن ما يميزه هو استخدام نموذج لغوي-بصري كبير (تم تدريبه مسبقًا على وصف الصور والإجابة عن الأسئلة)، ثم مواصلة تدريبه باستخدام بيانات عروض الروبوت، مع اعتبار حركات الروبوت كعلامات إضافية تحتاج إلى التنبؤ بها. فبدلاً من أن يُنتج نفس الشبكة العصبية "القطة جالسة على السجادة"، يمكنها الآن إنتاج سلسلة من العلامات التي تشفّر "تحريك المخلب الأيمن للأمام بمقدار 3 سنتيمترات، وإغلاق المخلب، ورفعه 5 سنتيمترات". يتم تنفيذ الاستدلال والحركة في نفس النموذج.

ثم، في منتصف عام 2024، أصدر فريق بقيادة جامعة ستانفورد OpenVLA، وهو نموذج VLA مفتوح المصدر يحتوي على 7 مليارات معلمة، تم تدريبه على مجموعة بيانات Open X-Embodiment. تجمع هذه المجموعة أكثر من مليون قطعة تدريبية من 21 مختبر بحثي مختلف، تغطي 22 جسمًا روبيًا مختلفًا. كان هذا أول مرة يمكن لأي شخص خارج جوجل تنزيل نموذج روبوتي عام والبدء في تعديله. لقد غيّر هذا المجال تمامًا بين ليلة وضحاها.

اليوم، تشهد VLA الرائدة، رغم قلة عددها، نموًا سريعًا:

π0 وπ0.5 من Physical Intelligence: تكيف ممتاز مع المهام.
NVIDIA Isaac GR00T N1.7: أوزان مفتوحة، ترخيص تجاري، مصمم خصيصًا للروبوتات البشرية، وهو النموذج الذي تستخدمه معظم شركات الأجهزة الصينية حاليًا لتدريبه لاحقًا باستخدام بياناتها الخاصة.
هيلكس وهيلكس-02 المحدثان من Figure AI: تقنية حصرية، لكنها مهمة من حيث البنية.
Genie Envisioner من AgiBot: منصة مبنية على نموذج صيني عالمي.
SmolVLA وNORA وACoT-VLA وCogACT: يشهد المجتمع الأكاديمي ظهورًا متزايدًا للـ VLA التي تستكشف اتجاهات تصميم مختلفة.

كيف تعمل VLA (بدون صيغ رياضية)

يمكنك تصور VLA على أنها دمج إشارات المدخلات الثلاثة إلى إشارة واحدة للإخراج.

أول تدفق بيانات هو البيانات البصرية. كاميرات RGB (أحيانًا مستشعرات عمق أو ليدار)، وأحيانًا مستشعرات لمس على أطراف الأصابع، تُعالج بواسطة مشفر بصري (غالبًا نموذج Transformer مثل DINOv2 أو SigLIP)، يقوم بضغط كل صورة إلى مئات "رموز بصرية" تلخص ما يراه الروبوت.

التدفق الثاني هو اللغة. يتم تحويل تعليماتك ("مرّر لي مفك البراغي") إلى وحدات ترميز، تمامًا كما في ChatGPT.

يتم توصيل هذين التدفقين وتقديمهما إلى "عُظمى" Transformer (عادةً نموذج لغوي مفتوح المصدر صغير مثل Qwen3 أو Llama). تتحمل هذه العظمى عملية الاستدلال، ودمج المعلومات التي تراها مع المعلومات التي تُسأل عنها.

التدفق الثالث: الإجراء، يخرج من الطرف الآخر. هنا حيث تختلف تصاميم البنية التحتية:

رموز الإجراءات المنفصلة: يولد النموذج رموزًا يمكن تحليلها إلى زوايا المفاصل أو موضع المشغل النهائي، تمامًا كما يولد ChatGPT الكلمات. هذه الطريقة بسيطة، لكنها تسبب توقفًا عند التشغيل عالي التردد.
رأس عمل التشتت أو التطابق التدفق (flow-matching): شبكة صغيرة مستقلة تتلقى مخرجات الهيكل الأساسي وتزيل الضوضاء لتوليد مسار سلس لمواقع المفاصل، تمامًا مثل نماذج التشتت الصوري، ولكنها تولد حركة. هذا هو ما تفعله π0، مما ينتج أفعالًا أكثر سلاسة وطبيعية.
Action Chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

الروبوتات البشرية

في نموذج VLA: يتم إدخال تدفقين، ويُنتج أمر حركة، ويُدمج الاستدلال والإجراء في شبكة واحدة.

هذا هو التحول الهيكلي الحاسم: لم يعد الاستدلال والعمل منفصلين. لقد علّمت الشبكة العصبية التعرف على الكوب، كما علّمتها كيفية التقاط الكوب. إن هذا الربط هو ما يمكّن VLA من التعميم، بينما لم تستطع سلفها القيام بذلك.

خمسة: استراتيجية الدماغ المزدوج، كيف يعمل LLM و VLA معًا

هناك تفصيل نادرًا ما يُفسَّر بوضوح في التسويق. اليوم، لا تعمل أفضل الروبوتات البشرية الشبيهة بالإنسان على نظام VLA واحد، بل على نموذجين بسرعتين مختلفتين يتبادلان المعلومات. يُطلق أحيانًا على هذا التصميم اسم معمارية النظام المزدوج أو النظام 1 / النظام 2، مستوحاة من الإطار النفسي لدانيال كانيمان، الذي يرى أن البشر يمتلكون دماغًا سريعًا وحدسيًا ودماغًا بطيئًا ومتأنٍ في التفكير.

جعلت Helix من Figure AI هذا التصميم كلاسيكيًا، والآن يُقلد تقريبًا في كل مكان (وإصداراته المتنوعة). ويعتبر مهمًا بشكل خاص أن NVIDIA GR00T N1.7 اعتمدت هذا التصميم، كما اعتمدت معظم الروبوتات البشرية الصينية هذا التصميم. وهي مبنية على النحو التالي:

النظام 2 (S2): الدماغ المفكر ببطء. نموذج بصري-لغوي بـ 7 مليارات معلمة، يعمل بتردد حوالي 7–9 هرتز (أي 7 إلى 9 مرات في الثانية). مهمته مراقبة المشهد، وتحليل التعليمات، وإجراء استدلال متعدد الخطوات (مثل، "الوعاء خلف صندوق الحبوب؛ أحتاج أولاً إلى تحريك الصندوق")، وإصدار نوايا عالية المستوى—غالباً مجموعة من المتجهات الداخلية المضغوطة، وليس النص نفسه.
النظام 1 (S1): دماغ سريع الاستجابة. نموذج استراتيجية حسية حركية أصغر بكثير (حوالي 80 مليون معلمة) يعمل بتردد 200 هرتز. إنه يتلقى متجه النية من S2 بالإضافة إلى أحدث بيانات المستشعرات، وينتج أوامر مفصلية مستمرة. إنه لا يمتلك أي "تفكير" فعلي على الإطلاق، بل يرد فقط.

في الآونة الأخيرة، أضافت شركة Figure إلى Helix-02 نظامًا 0 (System 0). وهو يقع تحت نظام الدماغ المزدوج، وهو طبقة انعكاسية وليست طبقة إدراكية ثالثة. إنه شبكة تضم 10 ملايين معلمة، تعمل بتردد 1 كيلوهرتز، وتتولى معالجة التوازن الأساسي والتنسيق الجسدي الكامل، مستبدلةً أكثر من مائة ألف سطر من كود C++ مكتوب يدويًا للتحكم في الحركة. يمكنك تصور S0 كحبل شوكي مكتسب: فهو لا يقوم بالاستدلال أو التخطيط، بل يقتصر على الحفاظ على استقامة الجسم والتنسيق، بينما يُنجز التفكير من قبل نظام الدماغ المزدوج الأعلى.

الروبوتات البشرية

الهيكل الثنائي للدماغ في الروبوتات البشرية الحديثة: النظام 2 يفكر ببطء، والنظام 1 يتفاعل بسرعة — وهناك طبقة انعكاسية أسفلها تُسمى النظام 0 لحفظ التوازن، والتواصل اللمسية، والتنسيق الجسدي الشامل

هذا التقسيم ناتج عن قيود فيزيائية. إذا تم إرسال أمر حركة مرة واحدة فقط كل 200 مللي ثانية (وهو سرعة تشغيل VLA كبير)، فإن حركة الروبوت ستكون بطيئة مثل التحرك تحت الماء. يجب أن تكون سرعة تحديث أوامر الحركة أسرع من التذبذب الطبيعي للمفاصل التي تتحكم بها، مما يعني الحاجة إلى مئات أو آلاف التحديثات في الثانية. لا يمكن لأي نموذج Transformer بـ 7 مليار معلمة أن يعمل بهذه السرعة على روبوت يعمل بالبطارية.

لذلك، تم توزيع المهام المعرفية: فالنموذج الضخم والبطيء مسؤول عن التفكير؛ بينما النموذج الصغير وال سريع مسؤول عن التنفيذ. ولا يتبادلان الحديث باللغة الإنجليزية، بل يتواصلان من خلال متجهات كامنة تعلّموها: فالنموذج البطيء يُرسل أهدافًا مجردة، بينما يعرف النموذج السريع كيفية تفسيرها.

ستة: مشكلة وضع السحابة، الحوسبة الطرفية، و"الدماغ"

أين تُجرى جميع هذه الحسابات بالضبط؟

في الوقت الحاضر، تشكلت تقريبًا إجماع قوي، شبه أيديولوجي، بين فرق الروبوتات على أن دوائر التحكم الأساسية المتعلقة بالسلامة يجب أن تعمل محليًا. السببان هما:

التأخير. وقت الذهاب والإياب لشبكة Wi-Fi أو الشبكة الخلوية، حتى بأفضل تقدير، يتراوح بين 30-80 مللي ثانية. بينما تتطلب أوامر الحركة تحديثًا كل 1-5 مللي ثانية. لا يمكن لدورة الشبكة هذه العمل بشكل طبيعي.

الموثوقية. تعمل الروبوتات في المصانع والمستودعات والمطابخ والمستشفيات وغيرها من الأماكن. قد تنقطع الشبكة في أي وقت. إذا توقفت الروبوتات فور انقطاع Wi-Fi، فستصبح تهديدًا للأمان.

إذًا، التقسيم الحديث هو تقريبًا كالتالي:

مدمج (محلي)، يعمل على أجهزة مثل وحدة NVIDIA Jetson Thor أو AGX Thor (حوالي 2,000 TFLOPS، 128 جيجابايت ذاكرة، استهلاك طاقة 40–130 واط):

جميع وظائف S0/S1: التوازن، الحركة، التحكم في الحركات الدقيقة.
VLA نفسه (النظام 2)، من أجل التكيف مع قيود الأجهزة، يتم كميته بشكل متزايد إلى تنسيقات FP8 أو FP4. يمكن الآن تشغيل النماذج في نطاق 2 إلى 7 مليارات معلمة على الجهاز.
الإدراك، دمج المستشعرات، وبرامج المراقبة الأمنية التي يمكنها تغطية أي عملية أخرى.

السحابة أو الخادم البعيد (إذا وُجد):

واجهة محادثة ("مرحبًا، روبوت، ماذا يجب أن أطبخ للعشاء؟"): يمكن لهذه الواجهات تحمل التأخير.
التعلم الجماعي: يتم إرسال بيانات التشغيل عن بُعد من آلاف الروبوتات إلى الخادم لدمجها في الإصدار التالي من النموذج.
يتطلب الأمر تخطيطًا طويل الأجل على نطاق واسع، وقد يتم استخدام نماذج متطورة على نطاق واسع.
لوحة تحكم المشرف والمراقبة.

بالإضافة إلى ذلك، هناك طبقة وسطية متزايدة باستمرار: خوادم حافة محلية موجودة في المصانع أو المستودعات، والتي تتواصل مع مجموعات الروبوتات عبر الشبكات المحلية بتأخير يبلغ فقط بضعة ملي ثوانٍ. قد يتم نشر نماذج LLM الأكبر حجمًا على هذا المستوى لتنفيذ مهام جدولة متقدمة لا تحتاجها الروبوتات الفردية إلى إدارتها بنفسها.

موجة الروبوتات البشرية في الصين مبنية على هذا الافتراض: Unitree و AgiBot و XiaoPeng IRON و Fourier و EngineAI. تُزوَّد روبوتاتهم بقدرة حوسبة مدمجة (غالبًا Jetson، وأحيانًا شرائح صينية مثل Huawei Ascend)، بينما تُستخدم السحابة للتعلم الجماعي وواجهات المحادثة، وليس لحلقات التحكم.

الروبوتات البشرية

مكان تشغيل العقل الاصطناعي: الدوائر الحيوية للأمان تعمل محليًا، بينما يُستخدم السحاب لمعالجة الأمور التي يمكن الانتظار لها

سبعة: لماذا أصبحت النماذج المفتوحة المصدر تُعتبر بسرعة محور الاهتمام

إذا ركزت فقط على العرض التوضيحي، فقد تظن أن هذا المجال يهيمن عليه عدد قليل من الشركات الأمريكية ذات الموارد المالية الكبيرة. لكن الحقيقة أكثر تعقيدًا من ذلك بكثير. إن وتيرة تطور الذكاء الاصطناعي الفيزيائي تُحدَّد إلى حد كبير من خلال نماذج الأوزان المفتوحة المصدر التي يمكن لأي شخص تنزيلها وضبطها.

النماذج المذكورة أدناه، رغم قلتها، لها أهمية كبيرة:

OpenVLA (ستانفورد): أول نموذج روبوتي عام مفتوح المصدر بحجم 7B.
NVIDIA Isaac GR00T (N1، N1.5، N1.7): ستُطرح الأوزان المفتوحة المصدر قريبًا، كما ستُطلق الترخيصات التجارية، وقد تم تدريب هذا النموذج على عشرات الآلاف من ساعات الفيديو المركزة على الإنسان. سيتم إطلاق GR00T N1.7 في مارس 2026، حيث يمكن لأي مستخدم يمتلك روبوتًا بشريًا استخدام بنيته الثنائية مجانًا.
π0 لـ Physical Intelligence: نشر الأوزان للبحث.
NVIDIA Cosmos: نموذج أساسي للعالم المفتوح.
AgiBot World: مجموعة بيانات مفتوحة المصدر ضخمة من شركة ناشئة في شنغهاي، تشمل عروضًا للتحكم عن بُعد في الروبوتات البشرية الشكل.
LeRobot من Hugging Face: مكتبة مفتوحة أصبحت نقطة تجمع لجميع المنصات المذكورة أعلاه.
mimic-video من Mimic robotics: نموذج فيديو-حركة مفتوح المصدر، يحقق كفاءة عينات تزيد عن 10 مرات مقارنة بـ VLA التقليدية.

هذا مهم لسببين. أولاً، لا تحتاج شركات الروبوتات الناشئة إلى إنفاق عشرات الملايين من الدولارات على التدريب المسبق لنموذج أساسي: يمكنها أخذ GR00T أو π0 ثم إجراء تدريب لاحق باستخدام بيانات روبوتاتها الخاصة. إن شركات Unitree و ZhiJi Dynamics وBooster وGalbot وعشرات الشركات الصينية الأصغر هي التي تفعل بالضبط هذا. وهذا هو السبب في أن شركة يبلغ عدد موظفيها بضع مئات فقط يمكنها إنتاج روبوتات شبيهة بالإنسان قادرة على المشي والتحدث وطي الملابس: فهي تقف على أكتاف بنية تقنية مفتوحة المصدر.

ثانيًا، النماذج المفتوحة المصدر هي السبيل الوحيد العملي لحل مشكلات الأمان. إذا كان نموذج مغلق بالكامل يعمل داخل روبوت في مصنع، وكان من المستحيل على الخارج فهم منطق الاستدلال الخاص به، فهذا بالتأكيد كابوس تنظيمي. تسمح النماذج المفتوحة للمحققين والباحثين والعاملين بفحص ما تم تدريب الروبوت عليه فعليًا.

ثامناً: ما هي المشكلات الأخرى التي لم تُحل بعد؟

إذا شاهدت عددًا كافيًا من مقاطع فيديو عروض الروبوتات، فربما شاهدت أيضًا العديد من مقاطع فيديو أعطال الروبوتات. إن روبوتات الجيل الحالي المدعومة بـ LLM+VLA مذهلة بالفعل، لكنها تواجه أيضًا قيودًا واضحة. إليك المشكلات التي تواجهها:

استئناف المهمة في منتصفها. تتفوق VLA على أي تقنية سابقة في التعامل مع التغييرات غير المتوقعة. لكن عندما تحدث أخطاء حقيقية (مثل أخطاء التقاط، أو دوران الجسم، أو دخول شخص إلى منطقة العمل)، فإن العودة إلى المسار الصحيح لا تزال نقطة ضعف. سيكرر الروبوت الحركات الفاشلة بشكل أعمى.
كفاءة العينة. يتطلب تدريب VLA من الصفر آلاف الساعات من بيانات التشغيل عن بُعد، بينما يستطيع الإنسان تعلم تشغيل أداة جديدة في دقائق قليلة. هذه الفجوة في الكفاءة هائلة.
التوسيع عبر الكيانات. النموذج الذي تم تدريبه باستخدام ذراع روبوت Franka في مختبر ستانفورد لا يمكن نقله بشكل مثالي إلى الروبوت الشبيه بالإنسان من Yushu في مستودع شنتشن. تختلف أشكالهما الفيزيائية.
المهام الطويلة. أي مهمة تتطلب سلوكًا متواصلًا لأكثر من 30-60 ثانية وتحتوي على أهداف فرعية متعددة، من السهل أن تنحرف عن هدفها. مثلًا، المهمة "أعد لي الإفطار" تظل دائمًا بعيدة المنال.
المعرفة الفيزيائية. تم تدريب VLA على التقليد، وليس على الفهم. فهي لا تفهم حقًا المبدأ وراء تسرب الماء عند إسقاط كوب ماء. إنها فقط شاهدت بعض الأمثلة وتحاول التنبؤ بما سيحدث لاحقًا من خلال مطابقة الأنماط.
القدرة على الاستدلال المكاني. على الرغم من أنها متعددة الوسائط، إلا أنها ضعيفة بشكل غير متوقع في المهام مثل "تجاوز العقبات بدلاً من المرور من خلالها" أو "تكدس هذه الأشياء دون أن تسقط".

هذه السلسلة الأخيرة من نقاط الضعف دفعت المجال إلى الاعتماد على نموذج مختلف تمامًا.

تسعة: النموذج العالمي

تخيل هذا: ماذا سيحدث إذا لم تُدرّب الروبوت على توقع الحركات، بل على توقع عواقب هذه الحركات؟

نموذج العالم (World Model) هو شبكة عصبية تتنبأ بمظهر العالم التالي بناءً على الحالة الحالية للعالم (عادةً مقطع فيديو أو سلسلة من الصور) والإجراءات المحددة مسبقًا. ببساطة، يمكنك تصوره كمُنبّئ فيديو تعلمي مزود بعجلة قيادة. عندما تُظهر له لحظة أخيرة من لقطات الكاميرا وتُخبره أن "الروبوت سيحرك ذراعه للأمام 10 سنتيمترات"، فإنه يُنشئ مقطع فيديو واقعيًا يتنبأ بمظهر اللحظة التالية.

Why is this important?

بمجرد امتلاك نموذج عالمي، يمكن للروبوت التفكير قبل اتخاذ أي إجراء. يمكنه تصور ثلاثة أو أربعة إجراءات بديلة مختلفة مسبقًا، وتوقع نتائج كل إجراء، وتقييمها، واختيار أفضل خيار. يتم تنفيذ كل هذا قبل أي حركة ميكانيكية. هذه هي بالضبط الطريقة التي يعمل بها محرك الشطرنج: فهو لا يتذكر الحركات، بل يحاكي المستقبل. لم تكن هذه القدرة متوفرة من قبل في مجال الروبوتات المادية، لأن النماذج الدقيقة الكافية لمحاكاة العالم الحقيقي المعقد لم تكن متوفرة قط.

الروبوتات البشرية

النماذج العالمية تسمح للروبوتات بمحاكاة مجموعة متنوعة من السيناريوهات المستقبلية المحتملة، وتصنيفها، واختيار أفضل خيار قبل تشغيل أي محرك.

ما هي صورة نموذج العالم في عام 2026؟

توجد أنواع عديدة من نماذج العالم الأكثر تقدمًا حاليًا، لكنها تتطور بسرعة. فيما يلي بعض النماذج:

NVIDIA Cosmos: مجموعة من النماذج الأساسية للعالم المفتوح، تشمل Cosmos Predict 2.5 (نموذج توليدي)، وCosmos Transfer 2.5 (نموذج محاكاة قابل للتحكم)، وCosmos Reason 2 (مُستنتج بصري-لغوي للروبوتات)، وأحدث نموذج Cosmos Policy. يذهب Cosmos Policy أبعد من ذلك من خلال إخراج الإجراءات مباشرة للتحكم بعد التدريب الإضافي على نموذج العالم. تم تدريب Cosmos باستخدام عشرات الآلاف من ساعات GPU من بيانات الفيديو (Cosmos Predict 2.5 هو نموذج العالم في هذه السلسلة).
DeepMind Genie 3: نموذج عالم تفاعلي قادر على توليد بيئات قابلة للتنقل بالكامل بناءً على تعليمات نصية، بسرعة 24 إطارًا في الثانية، مع تشغيل مستقر لعدة دقائق. تم تصميمه في الأصل للبيئات اللعبة.
Meta V-JEPA 2: تم استخدام أكثر من مليون ساعة من مقاطع الفيديو على الإنترنت أثناء التدريب المسبق، ثم تم تدريبها فقط بـ 62 ساعة من مقاطع فيديو الروبوتات لشرط الحركة. وتم تحقيق نسبة نجاح 80% في عمليات التقاط ووضع العناصر بدون أي تدريب مخصص للمهام على أذرع روبوتية حقيقية في مختبرات مختلفة. تختلف طريقة "JEPA" من حيث التصميم بشكل جوهري عن الطرق الأخرى.
DeepMind Dreamer 4: تعلّم جمع الماس في Minecraft (مهمة تبلغ 20,000 خطوة) باستخدام بيانات غير متصلة فقط، دون أي تفاعل مع البيئة. هذا يثبت أن التعلم المعزز الحقيقي في العوالم الافتراضية ممكن.
AgiBot's Genie Envisioner: منصة نموذج عالمي موحد من الصين، تم تدريبها على أكثر من 3000 ساعة من مقاطع الفيديو الحقيقية لعمليات الروبوتات البشرية. يمكنها توليد مسارات انتشار متوقعة، وكذلك مسارات إجراءات قابلة للتنفيذ. تستخدم AgiBot NVIDIA Cosmos Predict 2 كشبكة أساسية، مع إعادة تدريبها باستخدام بيانات خاصة بها. وهذا بالضبط النموذج الموصوف سابقًا "طابق تقني مفتوح المصدر + بيانات خاصة بها".
نموذج عالم Toyota Research Institute المستند إلى Cosmos: لتعزيز البيانات والتنقل عن بُعد.

الروبوتات البشرية

أفضل ستة نماذج عالمية لعامي 2025-2026، وكل نموذج يطرح فكرة مختلفة حول كيفية تعلم الآلات للفيزياء.

عشرة: بنية بديلة، نظرًا لأن هذا المجال لم يُحسم بعد

لا توجد معايير موحدة لبناء نماذج عالمية. إن خلاف الهياكل هو أحد أكثر الجدلات إثارة في مجال الذكاء الاصطناعي حاليًا، وهو يؤثر مباشرة على ما يمكن للروبوتات فعله في المستقبل. هناك ثلاث مجموعات تستحق الملاحظة:

انتشار الفيديو على مستوى البكسل (مدرسة Cosmos/Sora): استخدام نماذج الانتشار للتنبؤ بالبكسلات الفعلية للإطارات المستقبلية. المزايا هي أنها يمكن أن تعمل كمولد للبيانات الاصطناعية، ويمكنها توليد عروض روبوتية جديدة تمامًا لم تحدث قط. العيوب هي التكلفة العالية، وأحيانًا انتهاك قوانين الفيزياء، وأن التنبؤ ببكسلات لن تُرى أبدًا هو هدر.

هندسة التنبؤ بالدمج المشترك، المعروفة اختصارًا بـ JEPA (مدرسة لي كون): لا تتنبأ بالبكسلات، بل تتنبأ بالتمثيل المجرد للإطار التالي. تتخلى عن التفاصيل النسيجية وتحتفظ فقط بالجوهر الدلالي للعناصر في المشهد. مزاياها كفاءة عالية وتركيز على العوامل الحاسمة للحركة. عيوبها صعوبة الاستخدام. تُستكشف حاليًا نماذج V-JEPA وV-JEPA 2 ونموذج JEPA-VLA الهجين الجديد في هذا المجال.

نماذج العالم الإجرائي الكامنة (سلالة Genie/Dreamer): تعلم ضغط مقاطع الفيديو الكاملة إلى لغة "إجرائية" كامنة قادرة على التقاط هيكل السلوك، ثم تدريب نموذج العالم لتوقع الحالة الكامنة التالية بناءً على الإجراء الكامن التالي. الميزة هي السماح لك باستخدام مقاطع فيديو من الإنترنت بدون إجراءات للتدريب، ثم إضافة كمية صغيرة من بيانات الروبوتات الحقيقية. العيب هو أن الإجراءات الكامنة غير قابلة للفهم من قبل البشر، مما يجعل التحليل الأمني معقدًا.

الروبوتات البشرية

الانتشار البكسلية، JEPA، والأفعال الكامنة: نفس الهدف، لكن طرق بناء نموذج العالم مختلفة تمامًا

十一: التطبيقات العملية للروبوتات بناءً على نماذج عالمية

إذا قمنا بالتقديم بضع سنوات، فقد تبدو هندسة الروبوتات البشرية المتقدمة هكذا:

يحتوي VLA على نموذج عالمي. عندما يواجه الروبوت حالة جديدة، فإنه ينفذ عمليات مشابهة لما يلي:

VLA اقترحت بعض الخيارات التالية للإجراءات (ما زالت استراتيجية).
سيقوم النموذج العالمي بجمع كل إجراء مرشح ومحاكاة فيديو افتراضي مدته 1-3 ثوانٍ.
يقوم مُقيّمو القيمة بمنح نقاط بناءً على النتائج المتوقعة: هل تم رفع الكوب؟ هل سقط شيء؟ هل اصطدم شخص؟
سيختار الروبوت الإجراء ذو أعلى درجة، وينفذ فقط الجزء الأول منه.
Real sensor data feedback; looping repetition.

هذا هو التحكم القائم على نموذج التنبؤ، وهي تقنية استُخدمت لسنوات لاستقرار الصواريخ والطائرات المروحية ذات أربع مراوح، لكنها تستبدل المعادلات الفيزيائية المُشتقَّة يدويًا بنماذج عالمية مُدرَّبة. إن قابليتها للتوسع تكمن في أن نموذج العالم تم تدريبه مسبقًا على ملايين الساعات من الفيديو، وليس لأن أحدًا كتب معادلات نافير-ستوكس (Navier-Stokes equations) للبيئة المطبخية.

مزاياه تتزايد تدريجيًا:

حالة الاستعادة تحسنت. إذا حدث خطأ في عملية السحب، يمكن للنموذج العالمي تصور مسارات تصحيح متعددة واختيار المسار الأكثر وعدًا.
تم تحسين القدرة على التعميم. النموذج العالمي المدرب على مقاطع الفيديو عبر الإنترنت قد مر بكمية من "الظواهر الفيزيائية" تفوق أي مجموعة بيانات للتحكم عن بُعد بالروبوتات بعدة درجات من الحجم.
يصبح التخطيط طويل الأجل قابلاً للتحكم. خطط في الخيال، وليس في الواقع.
الفرق بين المحاكاة والواقع قد تقلص. سابقًا، كان يجب استخدام محاكيات مبنية ذاتيًا (مثل Isaac Sim ومحرك فيزياء Newton) للتدريب، ثم الاعتماد على احتمال نقل نتائج التدريب إلى التطبيقات الواقعية، أما الآن فيمكن استخدام محاكيات مدربة يمكنها مطابقة الفيديوهات الحقيقية للتدريب. وبالتالي، فإن الفرق أصغر.
تتزايد البيانات المولدة ارتفاعًا هائلاً. يمكن لنموذج عالمي واحد أن يولد ملايين المسارات الروبوتية المختلفة تقريبًا مجانًا، ويشمل إضاءات ومواد وتكوينات كائنات مختلفة. وهذا يحل أحد أكبر العقبات في هذا المجال.

بالإضافة إلى ذلك، فإن له ميزة أمان مهمة. يمكن للروبوتات القادرة على محاكاة عواقب الإجراءات رفض تنفيذ العمليات الخطرة: ليس بسبب قيود قواعد محددة مسبقًا، بل لأنها تتوقع أن يُصاب شخص ما في المستقبل.

الروبوتات البشرية

طريقتان للحركة: VLA تتفاعل بناءً على ما تراه؛ بينما تقوم روبوتات نموذج العالم بالتفكير قبل الحركة

12: أشياء يجب أن تعرفها

مشكلة البيانات هي المشكلة الأساسية الحقيقية: إذا لم يكن بإمكانك تزويد النموذج بالبيانات، فإن جميع ابتكارات البنية التحتية في العالم لن تفيد شيئًا. حاليًا، التشغيل عن بُعد (حيث يرتدي البشر أجهزة VR للتحكم عن بُعد في الروبوتات كدمى) هو العقبة التقنية الرئيسية. أصبحت ميزة التنافسية لشركة الروبوتات تعتمد بشكل متزايد على خطوط إنتاج جمع البيانات، وليس على النموذج نفسه. لقد أنشأ روبوتات زهي يوان مستودعات مملوءة بالمشغلين. تشير قانون توسيع مهارة GR00T N1.7 من نيفيديا إلى أن زيادة مقاطع الفيديو من منظور الإنسان الأولي يمكن أن تزيد بشكل مباشر وقابل للتنبؤ من مهارة الروبوتات. وهذا أيضًا أحد الأسباب الجذرية التي تمنح الصين ميزة هيكلية: تكلفة أقل للعمالة في جمع البيانات، وبيئة نشر أكثر تسامحًا، بالإضافة إلى تنسيق الدولة النشط للسلسلة التوريدية.

المحاكاة هي كون موازٍ. تتيح منصات NVIDIA Isaac Sim ومحرك الفيزياء الجديد المفتوح المصدر Newton (الإصدار 1.0 سيتم إصداره رسميًا في أبريل 2026) والمنصة Omniverse للشركات تدريب الروبوتات في ملايين البيئات المحاكاة المتوازية دون الحاجة إلى نشرها في العالم الحقيقي. معظم الوظائف التي تبدو "ذكية من حيث الروبوتات" يتم تطويرها في الواقع في بيئات المحاكاة، ثم نقلها إلى الأجهزة.

العوائد الاقتصادية بدأت تظهر. سلّمت يوتشو حوالي 5500 روبوت إنساني في عام 2025، وتخطط للوصول إلى 10,000 إلى 20,000 وحدة في عام 2026. انخفض السعر المتوسط من 85,000 دولار أمريكي إلى 25,000 دولار أمريكي خلال سنتين. يُباع روبوت R1 من يوتشو بسعر 5900 دولار أمريكي. وسعر إطلاق Noetix Bumi هو 1400 دولار أمريكي. إن أسعار مكونات الروبوتات الإنسانية تقترب من مستويات أسعار الإلكترونيات الاستهلاكية، بينما لا تزال تقنيات الذكاء الاصطناعي الداخلية متخلفة عن المنتجات التوضيحية. سيتقلص هذا الفجوة في النهاية، وعندها سيؤدي توسيع حجم السوق إلى تأثير كبير على الصناعة بأكملها.

نمط الخلل يبدو غريبًا. عندما تعطل الروبوتات القائمة على نماذج اللغة الكبيرة، فإن طريقة تعطلها غالبًا ما تكون شيئًا لا تستطيع الروبوتات التقليدية تحقيقه. على سبيل المثال، القيام بأخطاء بثقة، أو الإدراك "الوهمي" لوظائف معينة، أو الدخول في حلقات حوار مع مخطّطها الخاص. هناك درجة كبيرة من الشك في عالم الروبوتات التقليدية تجاه هذا الأمر، وهو شك مبرر، حيث يصرّون على أن أنظمة التعلم يجب أن تخضع لمراقبة أمنية وقيود سلوكية. حاليًا، أكثر الروبوتات المُنفَّذة موثوقية هي الهجينة: يتم وضع عقل VLA داخل قفص أمان مصمم يدويًا.

سرد "لحظة ChatGPT" هو تشبيه مفيد ولكنه مضلل: لقد كان هوانغ رينشون يخبر الجميع أن لحظة ChatGPT للروبوتات قد حانت. وهو يقول هذا لأنه تبيع NVIDIA المجرف والمعول. النسخة الأكثر صدقًا هي: نحن حاليًا في مرحلة تقريبًا تشبه GPT-2 في الذكاء الاصطناعي الفيزيائي. إنه قوي ويجعلك تشعر بالإعجاب؛ لكنه ليس قويًا بما يكفي للاستخدام دون رقابة. إنه يخضع لتحسينات سريعة، لكنه لم يصل بعد إلى نقطة انفجار انتشار فيروسي، بل يشهد ارتفاعًا بطيئًا وثابتًا.

خاتمة

الروبوتات البشرية

مسيرة تطور الروبوتات ذات الأرجل الأربعة من Yushu (من اليمين إلى اليسار)

في العرض الذي شُوهد في مكتب Unitree، قام خمسة روبوتات إنسانية G1 بأداء فنون قتالية، مع تنسيق دقيق للحركات، وضبط متحكمات VLA المدمجة، بينما كان المشغل عن بُعد يضمن سير العملية بسلاسة. من الأساس، لم تكن هذه العملية مستقلة بالكامل. لكن العملية بأكملها: الإدراك، والتخطيط، والتحكم الحركي، يتم استبدالها الآن بواسطة الشبكات العصبية. بعد عامين، يمكن للروبوتات نفسها أداء نفس الحركات دون تنسيق مسبق، لأنها قد خططت مسبقًا للحركة بأكملها واختارت أفضل نسخة منها.

التطور الكامل الموصوف في هذا المقال: من وحدات التحكم المكتوبة يدويًا، إلى التعلم الآلي القائم على الإدراك، ثم مخططات LLM، ثم VLA، ثم البنية الثنائية، وأخيرًا النموذج العالمي، هو في الواقع تحول بطيء لموقع الذكاء الروبوتي. لقد بدأ من عقل المهندسين، ثم تطور إلى كود مكتوب يدويًا، ثم دخل طبقة الإدراك، ثم المخطط، ثم طبقة الاستراتيجية. والآن، إنه في طريقه أخيرًا نحو تطوير نموذج للعالم نفسه.

كل تحول يجعل الروبوت أكثر شمولية ومرونة وفائدة. إذا نجح تحول نموذج العالم، فسيمنح الروبوتات قدرات قوية حقًا: قوية بما يكفي لتحويل السؤال من "ما الذي يمكن للروبوت فعله؟" إلى "ما الذي ينبغي لنا أن نجعلها تفعله؟"

اقرأ أيضًا: استعراض أكثر من 30 شركة للروبوتات البشرية: من سيفوز بحلول عام 2026؟