فودان وميتوان LongCat معيار مفتوح المصدر للنموذج التفاعلي للعالم WBench

ME AI رسالة، وفقًا لمراقبة Beating، قام فريق من جامعة فودان وفريق Longcat من Meituan بإطلاق مفتوح المصدر معيار WBench للنماذج التفاعلية للعالم، والذي يقيم القدرة الأساسية على النمذجة في مجالات القواعد الفيزيائية، والاتساق المكاني-الزماني، والتحكم التفاعلي في توليد الفيديو. يحتوي المعيار على 289 حالة اختبار و1058 جولة تفاعل، ويشمل منظورين من أول وثالث شخص، ويجمع بين التحكم في الملاحة، وحركات الكيانات، وتحرير الأحداث، وتبديل الزوايا. يوحد WBench واجهات تعليمات النص، وموضع بستة درجات من الحرية، وواجهات الأفعال المنفصلة، مما يمكّن المقارنة عبر أنماط التحكم المختلفة. يتضمن نظام التقييم 22 مؤشرًا آليًا، حيث يحقق معامل ارتباط رتب سبيرمان بين نتائج التقييم والفوز في الاختبارات البصرية البشرية ما لا يقل عن 0.94. أظهرت الاختبارات أنه مقارنةً بجودة الفيديو التي تقترب من التشبع، فإن التحكم التفاعلي ومستويات التصوير والاتساق والفيزياء للنموذج تقريبًا مستقلة. لا يضمن التحكم في حركة الكاميرا اتساق الكيانات؛ فعلى سبيل المثال، تواجه HY-World 1.5 وMatrix-Game 3.0، اللتان تتمتعان بأداء ممتاز في الملاحة، مشكلات في فقدان هوية الكيان وانحراف الزاوية عند المنظور الثالث. في الوقت نفسه، هناك ارتباط قوي بين الدقة الفيزيائية وجودة التصوير، لكن الارتباط مع قدرة التحكم يكاد يكون صفرًا. تتصدر النماذج المفتوحة المصدر في عدة أبعاد: حققت HY-World 1.5 أعلى درجة في التحكم بالملاحة، واحتلت LingBot-World المرتبة الأولى في الاتساق، بينما حصلت Matrix-Game 3.0 على المرتبة الأولى في الملاحة والحركة. تشير التفاعلات المتعددة إلى أن أداء جميع النماذج يتدهور مع زيادة عدد الجولات، حيث يتدهور التحكم بالملاحة بأسرع معدل بسبب التراكم التدريجي للانحراف المكاني. يمكن للتحكم الهندسي الصريح تخفيف الانحراف بشكل فعال؛ فعلى سبيل المثال، تفوقت HY-World 1.5 في الاستقرار على مدى عدة جولات بشكل كبير على Kling 3.0 المدعوم بالنص. تمثل الديناميكيات المشهدية وصلابة الكيانات المنطق الأساسي لصعوبة المعيار؛ فالمنظور الأول والمشهد الثابت والكيانات الروبوتية الصلبة سهلة التنفيذ بسهولة، بينما تظل الحركات المفاجئة والحيوانات وغيرها من الكيانات غير الصلبة التي تتعرض لتشوهات وتعقيدات السرعة تحديًا طويل الأمد للصناعة. (المصدر: BlockBeats)