تستعرض المقالة مسارات تطوير نماذج العالم في مجال الذكاء الجسدي. حاليًا، هناك طريقتان: "مدرسة الاستبدال" في سيليكون فالي التي تسعى إلى استبدال VLA تمامًا بواسطة WAM، و"مدرسة التكامل" السائدة محليًا التي ترى في نموذج العالم مكملًا لقدرات VLA. تشير المقالة إلى أن نماذج العالم تواجه ثلاث فقاعات: تعميم التعريف، الحواجز العالية في قوة الحوسبة، وصعوبة التطبيق العملي. وترى المقالة أن نموذج العالم الحقيقي يجب أن يُدمج في حلقة عمل حقيقية، لمساعدة الآلات على التحرك في العالم المادي، وليس فقط السعي وراء واقعية الصور المولدة.

مؤلف المقال، المصدر: مختبر أبكار

من VLA إلى WAM: ثورة مبالغ في تقديرها وتطور مُهمل.

على مدار النصف العام الماضي، شهد مجال الذكاء الجسدي حفلتين ضخمتين للجدل العام. الأولى كانت على الشاشة: حيث عرضت Sora ونماذج توليد الفيديو المختلفة قدراتها بشكل متتالٍ، حيث أثارت تفاصيل سكب كوب ماء وحركة الشخصيات في الفضاء المستمر، سرد "إعادة بناء الذكاء الاصطناعي للواقع" إلى ذروته، وازدادت صيحات "قد جاء نموذج العالم". والثانية كانت على القبر: حيث أعلنت صورة ميم من جيم فان، العالم الرئيسي للبحث في نيفيديا، وهو يقف أمام قبر VLA (نموذج الرؤية-اللغة-الحركة) مع نموذج WAM (نموذج العمل العالمي)، معلنةً "VLA مات، عاش نموذج العالم"، مما دفع صراع المسارات إلى المقدمة مباشرة. (يتم مناقشة نموذج العالم في الذكاء الجسدي فقط في هذا المقال)

تجربتان ممتعتان تشتركان في نفس الكلمة الأساسية: نموذج العالم.

لكن المفارقة هي أنه كلما زاد عدد الأشخاص الذين يتحدثون عن الذكاء المتجسد، أصبحت طبيعته أكثر غموضًا؛ فالبعض يسمّي إنشاء مقاطع فيديو واقعية نموذجًا عالميًا، والبعض الآخر يسمّي محاكاة حركات الروبوتات نموذجًا عالميًا، والبعض الثالث يسمّي بيئة المحاكاة للقيادة الذاتية نموذجًا عالميًا. تحت نفس المفهوم، توجد أهداف تقنية وطلبات تجارية مختلفة تمامًا.

أكبر خطر على نماذج العالم الحالية ليس "التعريف الغامض"، بل أن الجميع يستخدمون الجانب الأسهل في العرض والأكثر إثارة للانتشار لتعريف قيمتها الكاملة. عندما تطغى المظاهر المبهرة لـ "بناء عالم" على الجوهر الحقيقي لـ "استخدام عالم"، فإن نماذج العالم تُبعد بواسطة أكثر الناس مهارة في السرد عن المكان الذي يجب أن تذهب إليه حقًا: السيناريوهات الفيزيائية الحقيقية للذكاء الاصطناعي الفيزيائي.

بالطبع، تحتاج نماذج العالم إلى القدرة على "إنشاء عالم". بدون تلك العروض التوليدية المذهلة، لما دخلت بسرعة إلى دائرة الضوء العامة والاستثمارية. لكن بالنسبة لصناعة الذكاء الاصطناعي المادي، فإن توليد عالم هو دائمًا مجرد بداية المشكلة. في النهاية، يجب التحكم في العالم وتحقق منه وتصحيحه، ليصبح فضاءً للتجريب قبل تنفيذ الحركة الآلية، وأساسًا للقرارات. يمكن لتكوين الفيديو أن يفتح باب نماذج العالم، لكنه لا يستطيع إكمال الطريق الذي يقود إلى العالم الفيزيائي الحقيقي.

نحن لا نفتقر أبداً إلى مفاهيم جديدة وسرديات جديدة، وسيجد الذكاء المتجسد طريقه الخاص والشامل. حينها، سواء أكان هذا الطريق يُسمى VLA أو WAM أو أي اسم آخر، فقد لا يصبح مهمًا أصلاً.

بعد كل شيء، إنه مُدمج في حياتنا.

النماذج العالمية لا تساوي بالضبط "إنشاء الصور"

هل تتذكر Sora؟

في ذلك الوقت، عندما أصدرت OpenAI Sora، كان عنوان التقرير "نماذج توليد الفيديو كمحاكيات للعالم"، وأعلنت أن نماذج توليد الفيديو تعد مسارًا محتملاً نحو "محاكي عالمي للعالم الفيزيائي". وأظهرت Sora في مقاطع الفيديو الطويلة التي عرضتها قدرات على حركة الكاميرا، والاتساق المحلي ثلاثي الأبعاد، والحفاظ على حالة الكائنات، مما جعل الجمهور يشعر لأول مرة بشكل مباشر بأن الذكاء الاصطناعي يبدو أنه يتعلم حقًا "بناء عالم". مقارنة بالنص والصور، فإن الفيديو متوافق بشكل طبيعي مع الإدراك البشري المباشر للـ"عالم" — يحتوي على زمن ومكان وحركة وتغير مستمر، مما يجعل من السهل على الناس أن يشعروا بانطباع خاطئ بأن النموذج قد اتقن القوانين الفيزيائية.

هذه القدرات مناسبة بشكل طبيعي للعرض في المؤتمرات، وهي الأسهل في جذب انتباه رأس المال والإعلام. مع مرور الوقت، أصبح "توليد الفيديو = نموذج عالمي" نقطة دخول افتراضية لكثيرين.

هذا بالتأكيد ليس خطأ. في السيناريوهات الأصلية الرقمية، فإن مسارات توليد الفيديو هي بالفعل حلول فعالة، وقد ظهرت بالفعل العديد من الشركات الناشئة ذات التقييم العالي. يمكن استخدام منتجاتها في صناعة الألعاب لتوليد مشاهد ديناميكية في الوقت الفعلي، مما يقلل من تكاليف الفنون البصرية ويزيد من درجة حرية اللاعبين؛ وفي المجالات ذات تكلفة التجربة والخطأ العالية مثل الطيران والفضاء والتصنيع المتقدم، فإن استخدامها لتوسيع حدود الاختبار وتنويع بيئات المحاكاة يمتلك قيمة تجارية واضحة أيضًا. في هذه الحالة، فإن "العالم" الذي يتم توليده ليس مجرد صورة للمشاهدين، بل بيئة محاكاة قابلة للتفاعل والتجريب.

السوء الفهم الحقيقي يحدث عند العبور بين المجالات، عندما يلتقي النموذج العالمي بالذكاء المتجسد، حيث يفترض الكثيرون أن قدرة النموذج على توليد عالم رقمي مستمر وواقعي تعني أنه يمتلك فهمًا وتوقعًا وقدرة على التصرف في العالم المادي.

يُعدّ تشخيص وانغ zhongyuan، رئيس معهد بكين للذكاء الاصطناعي الزراعي، دقيقًا للغاية: إن تقنية توليد الفيديو التي تُعتبر حاليًا ممثلة للنماذج العالمية، هي في جوهرها محاكاة على مستوى البكسل. يمكن لنماذج توليد الفيديو أن تُنتج مجموعة من الخنازير تطير مع الطائرات في السماء، لأن بيانات تدريبها تحتوي على كم كبير من محتوى أفلام الخيال العلمي، وهدفها لم يكن أبدًا إعادة إنتاج قوانين العالم الفيزيائي الحقيقي.

مشهد جسدي كلاسيكي واحد يكفي لتوضيح الفجوة: التقاط الكوب. يمكن للنموذج توليد أكواب تبدو متسقة بصريًا من زوايا مختلفة، وهذا تماسك بصري، وهو ما يمكنه تعلمه من بيانات الفيديو؛ لكن ما مدى الاحتكاك عند لمسه؟ هل يمكن للمادة تحمل القوة المطبقة عند الإمساك؟ عندما يسقط الكوب على الطاولة، هل لأن النموذج يتذكر أن "الأكواب عادةً تكون على الطاولة"، أم أنه يفهم حقًا الجاذبية والقوة الداعمة وقيود التلامس؟ الاستجابات الميكانيكية المعقدة، وتغيرات الحالة بعد التلامس، والقيود السببية للقوانين الفيزيائية الحقيقية، لا يمكن لأي فيديو مُولَّد أن يغطيها جميعها. عندما يتم توليد سيارة تتحرك جانبيًا وتُدخل مباشرة إلى سلسلة تدريب القيادة الذاتية دون التحقق منها، فإن العالم الفيزيائي الحقيقي سيُقدم يومًا ما رد فعل مؤلم.

بعبارة أخرى، توليد الفيديو هو شكل من أشكال النموذج العالمي، وقد تم تطبيقه في العديد من السيناريوهات، لكنه ليس النموذج العالمي المطلوب للذكاء المتجسد، ولا الشكل الأساسي في سياق الذكاء المادي. استخدام التأثيرات البصرية لـ "خلق عالم" لتعريف النموذج العالمي للذكاء المتجسد هو في جوهره استخدام مقياس عالم رقمي لقياس مشاكل العالم المادي.

هل ماتت VLA؟ النماذج العالمية ليست ثورة، بل تكميل

"VLA مات، وWAM خلفه" هو السرد الأكثر شيوعًا في الصناعة.

على مدار السنتين الماضيتين، كان VLA المسار السائد في الذكاء المتجسد. فقد اتبع فلسفة التدريب المسبق المستخدمة في نماذج اللغة الكبيرة، وبنى خريطة بين "الإدراك - الأوامر - الحركة" من خلال كميات هائلة من بيانات التحكم عن بُعد، مما مكن الروبوتات من الانتقال من الحركات المتكررة الصلبة إلى فهم اللغة الطبيعية وتفكيك المهام المعقدة. وقد استخدم جميع اللاعبين الرئيسيين في الصناعة VLA كأساس تقني رئيسي.

لكن نقطة الضعف في VLA واضحة جدًا: فهي تعتمد أساسًا على التعلم بالمحاكاة، مما يوفر ذاكرة وربطًا، لكنها تفتقر إلى فهم أساسي للقوانين الفيزيائية، لذا فإن مواجهة سيناريوهات أو كائنات جديدة لم تُرَ في البيانات تؤدي إلى فشل سريع في القدرة على التعميم. إن مسار WAM الذي اقترحه جيم فان يركز تمامًا على هذه النقطة الحرجة. منطقه الأساسي هو الانتقال من "الفهم الدلالي" إلى "التنبؤ الفيزيائي": بدلاً من إصدار الإجراءات مباشرة، فإنه يتنبأ أولاً بحالة العالم المستقبلية، ثم يعكس تسلسل الإجراءات، مما يعادل جعل الروبوت يُجري "تمرينًا تجريبيًا" في عقله قبل اتخاذ أي إجراء، وذلك لتعزيز قدرته على التكيف مع السيناريوهات غير المألوفة.

وبالتالي تسارع انتشار نظرية "الإحلال"، حيث يُعتبر VLA نموذجًا قديمًا عفا عليه الزمن، ونموذج العالم هو الإجابة التالية للذكاء المتجسد. لكن في الممارسة الصناعية الحقيقية، الأمور بعيدة كل البعد عن أن تكون "إما حياة أو موت".

يتجه القطاع نحو طريقين واضحين، مدعومين بفلسفة تقنية وطموحات تجارية مختلفة:

مجموعة واحدة هي "المدرسة البديلة" القيادية من سيليكون فالي، ويمثلها نيفيديا وغوغل ديب ميند، وتستند إلى قدرات حوسبة ومخزون بيانات وافٍ، وتسعى لإعادة هيكلة النموذج بالكامل. فقد دمجت نيفيديا في Cosmos 3 اللغة والصور والفيديو وسلسلة الحركات ضمن إطار نموذج عالمي واحد للذكاء الفيزيائي، وتحاول جعل التوليد والمحاكاة وتوقع الحركات لا تُعد وحدات منفصلة؛ أما نموذج Waymo World Model الذي أطلقته Waymo بالتعاون مع غوغل ديب ميند، فيستخدم قدرات نموذج Genie 3 ليس فقط لتوليد سيناريوهات نادرة مثل الطقس الاستثنائي أو دخول الحيوانات، بل يركز بشكل أساسي على جعل هذه السيناريوهات خاضعة للتحكم من خلال إجراءات القيادة وتخطيط الطرق والشروط اللغوية، لاختبار استجابة أنظمة القيادة الذاتية في سيناريوهات معاكسة.

هذه الطريق الأكثر طموحًا وأكثر توافقًا مع "سرد الثورة"، لكنها تتطلب عتبة عالية جدًا، وهي لعبة الشركات الرائدة.

الآخر هو "النهج التكاملي" الأكثر شيوعًا في الداخل. لم يختر الغالبية العظمى من اللاعبين إعادة البناء من الصفر، بل دمجوا نموذج العالم كمجموعة مكملة لقدرات VLA، ودمجوه داخل البنية الحالية. أطلقت Zhi Square في مايو 2026 نموذج VLA الجسدي AlphaBrain. وهو يستلهم آلية تقسيم الأدوار في الدماغ البشري "المخ-المخيخ-الجذع"، من خلال دمج "النظامين السريع والبطيء" معًا، ليُدمج قدرة "المحاكاة" الخاصة بنموذج العالم داخل بنية VLA نفسها — حيث يتحمل النظام البطيء مسؤولية إدراك الحالة البيئية والتخطيط السلوكي العالي المستوى، بينما يتحمل النظام السريع مسؤولية الاستشعار الدقيق والردود السريعة. يرى غو ياندونغ، مؤسس Zhi Square، بشكل مباشر: "لا يوجد تناقض بين نموذج العالم وVLA؛ فهما في الأصل فرع واحد من نفس المسار التقني. إذا أردت تنفيذ مهام استدلال طويلة المدى، فستحتاج إلى نموذج العالم + VLA، أو دمج نموذج العالم مع VLA."

Galaxy General قد تقدمت أيضًا خطوات كبيرة؛ حيث أطلقت نموذج LDA-1B في أبريل من هذا العام، والذي يُجري تعلم الاستراتيجية والتنبؤ الفيزيائي والإدراك البصري في إطار موحد، وحقق لأول مرة في حجم معلمات بقيمة مليار على مستوى صناعي دمج نموذج العالم مع نموذج الإجراء. وقد تم قبول النتائج ذات الصلة في مؤتمر الروبوتات الرائد RSS، كما تم فتح مرجحات النموذج وشفرة التدريب للجمهور. إنهم لا يعترضون على "اختيار VLA أم نموذج العالم"، بل يعتمدون نهجًا أكثر واقعية يتمثل في مشاركة نفس النموذج بين التنبؤ والتنفيذ، والاستفادة من نقاط القوة في كل منهما وتعويض نقاط الضعف.

في رأينا، لا يوجد خطأ أو صواب مطلق في "الاستبدال" مقابل "الدمج"، بل مجرد خيارات مختلفة في مراحل مختلفة. لن تموت VLA حقًا، ولا تعتبر نماذج العالم ثورة تدمر كل شيء، بل تُكمّل القدرة على التنبؤ الفيزيائي التي تفتقر إليها VLA. العلاقة النهائية بينهما هي على الأرجح تعاون طبقي، وليس صراعًا مميتًا. ما يحدد فوز أي مسار حقًا ليس مدى حداثة المفهوم، بل من يستطيع تفعيل سلسلة البيانات والمحاكاة والنشر الفعلي أولاً، ليجعل الروبوتات تدخل حقًا إلى السيناريوهات الواقعية.

لم يتم تطبيق نموذج العالم بعد، لكن تم إثارة ضجّة مفاهيمية مفرطة

عندما يسبق حماس المفهوم تطبيق التكنولوجيا، فإن الفقاعة تصبح منتجًا شبه مؤكد. وفي سباق نماذج العالم الحالية، ظهرت على الأقل ثلاث فقاعات تستحق الانتباه.

الطبقة الأولى هي تعريف الفقاعة. لقد أصبح "نموذج العالم" اليوم سلة يمكن وضع أي شيء فيها. يرى يان ليكوان أنه تنبؤ بحالة العالم على مستوى تجريدي، بينما يعرّفه لي فيفي أنه تمثيل تفاعلي للفضاء ثلاثي الأبعاد، وتعتبر نفيديا أنه محاكي توليدي فيزيائي قائم على الذكاء الاصطناعي، وفي الشركات الناشئة، يلجأ البعض إلى استخدام توليد الفيديو كغطاء، ويُعيد آخرون تسمية محركات المحاكاة التقليدية باسم "نموذج العالم". وقد أعلنت بالفعل عشرات الشركات في الصين عن تخطيطها لتطوير نموذج عالم، لكن ربما لا تشير جميعها إلى نفس الشيء على الإطلاق. عندما يمكن تفسير مفهوم تقني بشكل غير محدود، فإن ذلك غالبًا ما يفقد معناه كمقياس تقني. وراء التعميم في التعريف، هناك دفع مشترك من احتياجات التمويل والسرد التسويقي، فبالتأكيد، تسمية "نموذج العالم" أكثر قيمة من تسمية "أداة توليد فيديو" أو "حل تحسين المحاكاة".

الطبقة الثانية هي فقاعة القوة الحسابية. تعتمد المسار السائد لتدريب النماذج العالمية على كميات هائلة من بيانات الفيديو وقوة حسابية ضخمة، وهو بالضبط مجال تفوق نيفيديا. صرح هوانغ رينشون في مؤتمر GTC أن شرائح Blackwell وRubin، وأنظمة الدعم المصممة لنماذج الذكاء الجسدي وغيرها، ستدر على نيفيديا على الأقل تريليون دولار أمريكي بحلول عام 2027. وبمعنى ما، فإن دفع اللاعبين الرائدين في سيليكون فالي لمسار "النموذج العالمي متعدد الأشكال" يتوافق تمامًا مع المنطق التجاري لنيفيديا المتمثل في "بيع بنية تحتية للقوة الحسابية". لكن عتبة الاستثمار في هذا المسار تُعد بئرًا بلا قاع بالنسبة لأغلب الشركات؛ فحتى الفرق الصغيرة التي استثمرت سابقًا في VLA تجد صعوبة في تحمل تكاليفها الغارقة بهذا الحجم، ناهيك عن الدخول إلى مسار النماذج العالمية من الصفر. عندما يتحدث الجميع عن نفس مسار القوة الحسابية المرتفعة، لكن قلة جدًا تقدر عائد الاستثمار، فهذا بحد ذاته إشارة إلى وجود فقاعة.

الثالثة والأكثر فتكًا هي فقاعة الهبوط. في النهاية، يجب على جميع السرديات المفاهيمية الإجابة عن نفس السؤال: هل يمكنها حقًا تحسين الأداء الفعلي؟ لكن الواقع هو أن الفجوة بين المحاكاة والتطبيق الحقيقي لا تختفي تلقائيًا فقط لأن اسم النموذج تغير من VLA إلى WAM. حتى أصغر تجاوز للحدود أو تأثيرات مضادة للجاذبية أو غموض في الحدود في الفيديو يمكن أن تتصلب كإدراك فيزيائي خاطئ في تدريب الروبوتات؛ التنبؤ الذي يبدو معقولًا لكنه يخالف قوانين الفيزياء يمكن أن يكون مضللاً للروبوت الحقيقي أكثر من عدم استخدام النموذج للتدريب على الإطلاق.

أشار شين يوجون، العالم الرئيسي في ميزي لينبو، إلى الفرق الأساسي: يمكن لنماذج التوليد في العالم الرقمي السعي وراء واقعية عالية الدقة، ولا بأس بالبطء قليلاً؛ لكن النماذج في العالم المادي يجب أن تكون أولاً وقبل كل شيء سريعة ومستقرة ودقيقة، وتستطيع إنتاج ملاحظات فورية ودعم الحركات. كثير من الفرق متمسكون بجعل المشاهد في العالم الرقمي أكثر واقعية، لكنهم يتجاهلون أن بيانات التفاعل الفعلي هي المورد الأقل توافراً. يمكن لنماذج العالم أن تحقق مؤشرات جميلة في المحاكاة، لكن ما لم تُثبت قيمتها الحقيقية على خطوط الإنتاج في المصانع أو مستودعات الشحن أو الطرق المفتوحة، فهي لا تزال مجرد استكشاف تقني في المختبر، وليس بنية تحتية صناعية.

إذًا، ماذا يجب أن يكون نموذج العالم الموجه نحو Physical AI أو الذكاء المتجسد؟ الإجابة لا توجد أبدًا في مقاطع العرض التوضيحي للإعلانات، بل في احتياجات السيناريوهات الواقعية. معيار التقييم الأساسي له لم يكن أبدًا "ما إذا كان العالم المُنشأ واقعيًا بما يكفي"، بل "ما إذا كان يمكنه مساعدة الآلات على التحرك بشكل أفضل في العالم المادي"، وما إذا كان يمكنه خفض تكلفة التجربة والخطأ، وتحسين القدرة على التعميم، ودمج نفسه في حلقة عمل فعلية.

من الممارسات الحالية في الصناعة، فإن اللاعبين الحقيقيين الذين يتبعون الاتجاه الصحيح يفعلون نفس الشيء: نقل نموذج العالم من "التركيز على العرض" إلى "التركيز على المهمة". وبعبارة أخرى، الشكل النهائي لنموذج العالم ليس منتجًا مستقلًا، بل قدرة أساسية مدمجة داخل أنظمة فيزيائية متنوعة. إنه مخفي خلف خلفية المحاكاة للقيادة الذاتية، وفي وحدة تخطيط الحركات للروبوتات، وفي أنظمة التنبؤ بخطوات الإنتاج في المصانع، حيث يُنجز تلقائيًا مهام التنبؤ والتجربة والتصحيح. في معظم الأحيان، لا يشعر المستخدمون حتى بوجوده.

ذلك هو عصر النماذج العالمية، وعلى الرغم من أنه يمكن أن لا يُسمى نموذجًا عالميًا.

نماذج العالم في الذكاء المتجسد: طريق للتقدم بعيدًا عن توليد الصور

النماذج العالمية لا تساوي بالضبط "إنشاء الصور"

هل ماتت VLA؟ النماذج العالمية ليست ثورة، بل تكميل

لم يتم تطبيق نموذج العالم بعد، لكن تم إثارة ضجّة مفاهيمية مفرطة