فريق لي فيفي يوضح مفهوم "النموذج العالمي"، وتصنيف سورا كمُرَسِّم

في 3 يونيو 2026، أصدر فريق World Labs بالتعاون مع الأستاذة لي فيفي من جامعة ستانفورد مقالة تحليلية مفاهيمية بعنوان مباشر إلى حدٍّ لا يكاد يحتوي على أي تزيين: "تصنيف وظيفي للنماذج العالمية". وبدأت المقالة جملتها الأولى بفضح تفاهم صناعي: "النماذج العالمية هي أحد أكثر المصطلحات أهميةً وأكثرها إساءةً استخدامًا في مجال الذكاء الاصطناعي الحالي."

هذا السياق، أي شخص يتابع صناعة الذكاء الاصطناعي على الإطلاق يعرفه.

في فبراير 2024، أطلقت OpenAI نموذج توليد الفيديو Sora، وكان عنوان تقريره التقني يحمل بوضوح عبارة "نموذج توليد الفيديو كمحاكي للعالم". وفي ذلك الوقت، ترك جيم فان، المدير العام للروبوتات في NVIDIA، تعليقًا على LinkedIn أصبح مُستشهدًا به مرارًا وتكرارًا: "Sora هو في جوهره نموذج عالم يسمح فقط بالعملية غير النشطة كفعل واحد فقط". وفي الجانب الآخر، وفقًا للتقارير العامة، أشار فريق الذكاء الاصطناعي في تسلا مرارًا وتكرارًا في المناسبات العامة إلى مكون التنبؤ الداخلي لنظام القيادة الذاتية الكامل باسم "نموذج العالم" أو "محاكي العالم". وقد تم وضع محركات الألعاب وأدوات توليد النماذج ثلاثية الأبعاد ونماذج الذكاء المتجسّد جميعها في نفس السلة، مع وضع نفس الملصق عليها.

مُولِّد فيديو، وشبكة تنبؤ ذاتية القيادة، ونموذج تحكم روبوتي، ومحرك فيزيائي—ما الذي يجمع بينها؟ تقريبًا لا شيء. لكنها جميعًا تُسمى "نماذج العالم".

بعد أكثر من عامين من الالتباس المفاهيمي، حاول أحدهم أخيرًا تنظيم الأمور بشكل منهجي. لم يُصدر فريق لي فيفي أي نموذج جديد، ولم يُعلن عن أي معيار جديد، ولم يُظهر أي ميزة منتج. بل قاموا بعمل أكثر أساسية: العودة إلى المصدر النظري لعملية اتخاذ القرار الماركوفية الجزئية الملاحظة، وتبسيط جميع الأنظمة التي تُسمى حاليًا "نماذج العالم" إلى ثلاث تجليات مختلفة لوظيفة واحدة من دورة إدراكية واحدة.

الرموز الثلاثة هي: المُنشِّئ، المحاكي، والمُخطِّط. ضمن إطار تصنيف World Labs، تُصنَّف Sora ونماذج توليد الفيديو المماثلة لها كمُنشِّئين.

لماذا يمكن لمصطلح واحد أن يحتوي على هذا العدد الكبير من المعاني المتناقضة؟

لفهم جذور هذا الفوضى، يجب أولاً طرح سؤال أساسي أكثر: ماذا تعني الشركة عندما تقول "نحن نقوم ببناء نموذج عالمي"؟

هدف Sora لـ OpenAI هو "فهم العالم المادي وتمثيله في الفيديوهات". من خلال التقرير التقني، يمكن لـ Sora، من خلال تعلم الأنماط الإحصائية في كميات هائلة من بيانات الفيديو، توليد مشاهد تتماشى مع المنطق البصري: الكوب يسقط على الأرض فينكسر، الطائرة الورقية تطير عندما تُطلق، والإنسان يحرك ساقيه بالتناوب أثناء المشي. تبدو هذه المشاهد وكأنها "تفهم الفيزياء".

بالنسبة لتسلا، فإن "نموذج العالم" هو الشبكة العصبية المستخدمة في نظام FSD للتنبؤ بمسارات حركة المشاركين في الطريق خلال الثواني القليلة القادمة. ويجب أن يُنتج هذا النموذج مواقع ثلاثية الأبعاد دقيقة، وسرعات، واتجاهات، لتمكين وحدة تخطيط المسار من حساب قرارات قيادة آمنة. لا يحتاج هذا النموذج إلى إنتاج بكسلات، بل يُنتج متجهات وتوزيعات احتمالية.

لشركات الروبوتات، فإن "نموذج العالم" هو آلية محاكاة داخلية تسمح للذراع الميكانيكية بتوقع "إذا دفعت هذا الكوب 5 سنتيمترات إلى اليسار، فهل سيقع؟". فهو يحتاج إلى فهم خصائص الأجسام وديناميكا التلامس والاستقرار، ويُنتج تقييمًا لجدوى الحركة.

أهداف الشركات الثلاثة مختلفة تمامًا. تهتم شركات توليد الفيديو بدقة البكسل، وتهتم شركات القيادة الذاتية بدقة التنبؤ بالحالة الفيزيائية، وتهتم شركات الروبوتات بإمكانية استنتاج نتائج الحركات. جميعها تعمل على "نماذج عالمية"، لكنها لا تفعل شيئًا واحدًا أساسًا.

تشير وورلد لابس في المقال إلى جوهر المشكلة: تم تسمية هذه الأنظمة جميعًا باسم واحد لأنها فعلاً تغطي جانبًا واحدًا من "فهم العالم". لكن كل نظام منها يُكمل فقط جزءًا واحدًا من دورة الإدراك الكاملة،却被 التسويق والإعلام والسرد الرأسمالي تغليفه كنموذج كامل للعالم.

مُحرك آخر للالتباس المفاهيمي هو التوتر الكامن في المصطلح نفسه. فعبارة "نموذج العالم" تحمل طابعًا سرديًا كبيرًا، وتبدو أكثر إثارة للخيال مقارنة بـ"نموذج توليد الفيديو" أو "نموذج تنبؤ الفيديو"، وتُدعم بشكل أفضل قصص التقييمات المرتفعة والتمويل. عندما لا تتماشى القدرات التقنية مع التوقعات العامة، يصبح تحول المفهوم إلى أداة دعائية أمرًا لا مفر منه.

في عقد الستينات، ما الذي كان ينبغي أن يكون عليه "نموذج العالم" الكامل؟

إطار تصنيف World Labs مبني على نظرية تبدو قديمة: عملية قرار ماركوف جزئية الملاحظة.

يصف هذا الإطار دورة كاملة من التفاعل بين الوكيل والبيئة. يقع الوكيل في حالة بيئية معينة، ويُنفّذ فعلًا، مما يغيّر حالة البيئة، ثم يحصل الوكيل عبر أجهزة الاستشعار على ملاحظات جزئية، والتي تُحفّز تحديث الحالة الداخلية، وتدفع المعرفة المحدّثة إلى تنفيذ الفعل التالي. وتستمر هذه الدورة بشكل متكرر.

في هذا الإطار، يجب أن تشمل الوظيفة الكاملة لـ "نموذج العالم" ثلاث مراحل: توليد الملاحظات من الحالة (البكسلات أو نقط السحابة التي يراها الإنسان أو تجمعها المستشعرات)، والتنبؤ بالحالة التالية من خلال الإجراء والحالة الحالية (التنبؤ بالتغيرات الفيزيائية)، وتوليد الإجراء من الملاحظات والهدف (التخطيط والقرار).

يتعلم نموذج اللغة الأنماط الإحصائية للتسلسلات النصية، بينما يتعلم نموذج العالم الخصائص الإحصائية للمكان والزمن. كيف تنعكس الإضاءة على أسطح المواد المختلفة، وكيف تتحرك الأجسام تحت تأثير الجاذبية، وكيف تنتقل الطاقة بعد تصادم الأجسام الصلبة، هذه هي الأنماط التي يسعى نموذج العالم إلى التقاطها.

أشار فريق World Labs في المقال إلى أن جميع الأنظمة المُسمّاة حاليًا "نماذج عالمية" في السوق هي في الواقع مجرد إسقاطات لجزء واحد فقط من الدورة الكاملة المذكورة أعلاه. فبعض الأنظمة تقوم فقط بـ"الترميز من الحالة إلى الملاحظة"، وبعضها يقوم فقط بـ"استنتاج الحالة التالية من الفعل"، وبعضها يقوم فقط بـ"التخطيط من الملاحظة إلى الفعل". كل منها يقطّع قوسًا واحدًا من الدورة، لكنه يُعلّق عليه Etiquette يمثل الدائرة الكاملة.

تتمثل قيمة هذا الإطار التحليلي في أنه يوفر نظام مرجعي مقارن يتجاوز الخطاب التسويقي. بغض النظر عن كيفية تغليف الشركة لمنتجها، كل ما عليك فعله هو إعادة وضعه داخل دورة POMDP، ومراقبة ما الذي تدخله وما الذي يخرج منه، وأي حلقات مفقودة، فستُكشف حدود قدراته بشكل واضح.

حدود قدرات المُعَرِّض، والمحاكي، والمُخطِّط

في تصنيف World Labs، تُعرَّف الفئة الأولى بأنها "المُرسِل". هدفها الأساسي هو توليد مخرجات بيكسل عالية الدقة موجهة للإدراك البصري البشري. المدخلات هي تمثيل لحالة البيئة (يمكن أن تكون وصفًا نصيًا أو معلمات مشهد ثلاثي الأبعاد أو ترميز ضمني)، والمخرجات هي سلسلة من الإطارات المتتالية.

اتجاه تحسين المُنشِّط هو الدقة البصرية وليس الدقة الفيزيائية. تُشير مقالة World Labs بوضوح إلى أن المُنشِّط قد يُنتج مباني "غير مستقرة" لأنه لا يحل معادلات الميكانيكا الهيكلية فعليًا؛ قد تبدو البقع السائلة التي يُنتجها واقعية، لكن حجم السائل وسرعته وقوة التأثير قد لا تتوافق تمامًا مع القيم الفيزيائية الحقيقية. لذا، لا يمكن استخدام هذا النوع من النماذج في تصميم المباني، أو تدريب الروبوتات، أو أي مهام تتطلب محاكاة فيزيائية دقيقة.

تنتمي Genie 3 من Google، وجميع نماذج تحويل النص إلى فيديو، وتقريبًا جميع أدوات توليد الفيديو بالذكاء الاصطناعي، إلى هذه الفئة. Sora موجودة أيضًا ضمنها.

الفئة الثانية هي "المحاكي". هدفه الأساسي ليس توليد صور مرئية للإنسان، بل توليد حالة دقيقة يمكن استخدامها في الحسابات اللاحقة. المدخلات هي حالة البيئة الحالية والقوى الخارجية (أو الإجراءات)، والمخرجات هي الحالة التالية التي تكون مخلصة من الناحية الفيزيائية والهندسية لقوانين العالم الحقيقي. يمكن استخدام الحالة التي يُنتجها المحاكي في تحليل الإجهاد، وحساب استهلاك الطاقة، وكشف التصادمات، كما يمكن استخدامها كمدخلات للمُرسِم لتوليد صور مرئية، لكن قيمته الأساسية تكمن في قابلية الحالة للحساب.

يُعد NVIDIA Omniverse مثالًا نموذجيًا على هذا النوع من الأنظمة. إنه ليس نموذجًا أصيلًا للذكاء الاصطناعي، بل منصة للتوأم الرقمي تجمع بين محركات فيزيائية تقليدية وحسابات مُسرّعة بالذكاء الاصطناعي. ووفقًا لتقييم World Labs في المقال، فإن المحاكيات هي الجسر الذي يربط بين التصوير والتخطيط، لكن ندرة بيانات التسمية الفيزيائية ثلاثية الأبعاد عالية الجودة تمثل العقبة الرئيسية. ووفقًا لتقديرات World Labs في المقال، فإن البيانات المستخدمة لتدريب هذه النماذج أقل بعدة درجات مقارنة ببيانات الفيديو المتاحة على الإنترنت.

الفئة الثالثة هي "المخطط". مدخلاته هي بيانات الملاحظة (صور الكاميرا، سحابة نقاط الليدار، قراءات أجهزة الاستشعار اللمسية، إلخ) والأوامر الهدف، ومخرجاته هي الإجراء التالي الذي يجب تنفيذه. تقع نماذج VLA (البصرية-اللغوية-الحركية) ونماذج عمل العالم ضمن هذه الفئة.

الاختلافات بين الفئات الثلاثة ليست اختلافات طفيفة في المسار التقني، بل هي تفرّق وظيفي جوهري. مُولّد الرسومات يُنتج بكسلات للإنسان لرؤيتها، المحاكي يُنتج حالة للآلة لحسابها، والمُخطّط يُنتج إجراءات للمُنفّذ لتنفيذها. يمكن لنظام واحد أن يمتلك عدة قدرات في آنٍ واحد، لكن عندما تكون معظم الأنظمة التي تُسمى "نماذج عالم" لا تقوم فعليًا سوى بالرسم، فإن اعتبار "الرسم" مكافئًا لـ"فهم العالم" هو تناقض إدراكي خطير.

جدال استمر لسنتين، هل Sora نموذج عالمي أم لا؟

في فبراير 2024، أصدرت OpenAI Sora، وكان عنوان تقرير التقنية مكتوبًا مباشرةً: "نموذج توليد الفيديو كمحاكٍ للعالم". وقد أثار هذا المصطلح جدلاً حادًا في الأوساط الأكاديمية ومجتمع المطورين.

يؤمن المؤيدون أن الفيديوهات التي أنشأها Sora تُظهر اتساقًا ثلاثي الأبعاد، واستمرارية الكائنات، وفهمًا بديهيًا إلى حد ما للتفاعلات الفيزيائية. فمثلاً، سيترك برغر ممضوغ أثر أسنان، وستُثير كلبة تجري على الثلج رذاذًا من الثلج، وتبدو هذه التفاصيل وكأنها تشير إلى أن النموذج تعلم بعض القوانين الفيزيائية.

حجة المعارضين الأساسية تستند إلى التعريف الكلاسيكي لنموذج العالم في مجال التعلم المعزز: يجب أن يكون نموذج العالم قادرًا على التنبؤ بانتقال الحالة بناءً على الإجراءات. بمعنى آخر، بالنظر إلى الحالة الحالية وإدخال إجراء، يجب أن يُخرج النموذج الحالة التالية بعد الإجراء. لا يستطيع Sora فعل ذلك. لا يمكن للمستخدمين إخبار Sora بـ "دفع الكوب من اليسار"، ثم مراقبة ما إذا كان الكوب سيقع، وفي أي اتجاه سيقع، وأين ستتطاير الشظايا.

تعليق جيم فان يلتقط بدقة هذا التناقض: "Sora في جوهره نموذج عالم، لكنه يسمح فقط بعملية لا تفعل شيئًا (no-op) كالفعل الوحيد." هذا يعني أن Sora تتنبأ بالتغييرات في البيئة مع مرور الوقت، لكن هذه العملية لا تخضع لأي تدخل خارجي، بل تتطور فقط وفقًا للسلسلة السببية المتأصلة في بيانات الفيديو. إنها لا تقوم بمحاكاة تفاعلية، بل تواصل سلسلة ملاحظات سلبية.

على منتدى r/MachineLearning في Reddit، أعرب العديد من باحثي التعلم المعزز عن انتقادات أكثر حدة: لا يمكن تسمية النظام الذي لا يمكنه التنبؤ بانتقالات الحالة بناءً على الإجراءات بـ "نموذج العالم"، بل فقط بـ "نموذج تنبؤ الفيديو".

إطار تصنيف World Labs يقدم إجابة حاسمة لهذا الجدل. في دورة POMDP، تعد الإجراءات المدخل الأساسي الذي يحرك انتقال الحالة، ونظام يفتقر إلى هذا المدخل لا يمثل سوى إسقاطًا لمرحلة "توليد الملاحظات" في الدورة المعرفية الكاملة. Sora هو مُرسِّم، وليس نموذجًا عالميًا كاملًا، ولا حتى مُحاكيًا عالميًا.

لكن هذا لا يعني أن Sora لا تمتلك قيمة. فالمُنشِّئ يحل مشكلة مختلفة: كيفية إنشاء صور تتوافق مع التوقعات البصرية البشرية. هذه المشكلة صعبة للغاية ولها قيمة تجارية هائلة. المشكلة تكمن في تغليف قدرات التصنيع على أنها "فهم العالم"، مما يُضلّل صانعي القرار التقنيين والمستثمرين ويجعلهم يظنون أن هذه النماذج تمتلك بالفعل قدرات على الاستدلال الفيزيائي أو التفاعل الجسدي.

القيمة الصناعية لتوضيح المفاهيم

تحديد حدود تعريف "النموذج العالمي" ليس مجرد تفصيل أكاديمي. بل يؤثر مباشرة على اختيار التكنولوجيا، واتخاذ قرارات الاستثمار، ومستوى إدراك الجمهور لقدرات الذكاء الاصطناعي.

لشركة تصنيع تقيم ما إذا كانت ستستخدم "نموذج عالمي" ما لتدريب الروبوتات، فإن فهم ما إذا كان هذا النموذج مُرسِمًا أم مُحاكيًا أم مُخطِّطًا هو شرط ضروري لتجنب خسائر تصل إلى ملايين الدولارات. لا يمكن لأي نموذج ينتج فقط مشاهد فيديو، مهما كانت واقعية، أن يحل محل الحسابات الدقيقة للقوى المؤثرة على الأجسام، ومسارات حركتها، وعواقب التصادم.

بالنسبة للمؤسسات الاستثمارية، فإن التمييز بين فئات التوقعات الثلاث يسمح بتحديد موقع المشروع في سلسلة التكنولوجيا بدقة أكبر. فشركة ناشئة تدّعي أنها "نموذج عالمي" ولكن منتجها في جوهره عبارة عن مُولِّد رسومي، فإن منافسيها هم شركات توليد الفيديو، وليس منصات التوأم الرقمي أو نماذج التحكم بالروبوتات. وهذا يحدد مباشرة طريقة تقدير حجم السوق واختيار الشركات المرجعية.

للمجتمع الأكاديمي، التصنيف الواضح هو شرط أساسي لبناء معايير قابلة للمقارنة. إذا استمر مصطلح "النماذج العالمية" في التعميم، فسيصبح من الصعب على الباحثين تحديد ما يُعد تحسينًا وما يُعد اختراقًا، وسيستند التقييم من قبل الزملاء إلى غموض.

أشارت وورلد لابس أيضًا في المقال إلى أن توضيح المفاهيم ليس الهدف منه خلق تناقض. سيكون الاتجاه المستقبلي هو دمج الأنواع الثلاثة من التصوير. يجب أن يكون النموذج الذي يفهم حقًا الخصائص الفيزيائية لكوب قادر على عرض مظهره البصري، ومحاكاة العملية الفيزيائية عند سقوطه، وتحديد كيفية قيام الروبوت بالتقاطه بثبات. لكن قبل أن يصل التطور التقني إلى تلك المرحلة، فإن التعرف على الحدود الفاصلة بينها أكثر واقعية من التفكير في الدمج.

وفقًا لتقديرات World Labs في المقال، تستهدف تقنيات المحاكاة والتوأم الرقمي، مثل NVIDIA Omniverse، سوقًا محتملاً يتجاوز تريليون دولار في مجالات مثل المصانع والمستودعات وسلسلة التوريد. يعود هذا الرقم إلى تقييمات الشركات نفسها، ويعتمد توقيت وصول السوق إلى هذا الحجم على قدرة المحاكاة على تجاوز عقبة ندرة بيانات الفيزياء ثلاثية الأبعاد عالية الجودة.

ربما يكون أهم فهم بالنسبة لصناعة الذكاء الاصطناعي في هذه المرحلة بسيطًا جدًا: القدرة على إنشاء فيديوهات واقعية لا تعني فهم العالم الفيزيائي؛ والقدرة على تسميتها نموذجًا للعالم لا تعني بالضرورة أنها تحاكي العالم فعليًا. إن اختراق اللغة التسويقية ومراجعة ما الذي يتلقاه النظام كمدخلات وما الذي يُخرجه كنتائج، وأي جزء مفقود في دورة POMDP، هو أصدق طريقة لتحديد حدود القدرة التقنية.