فودان وميتوان LongCat معيار مفتوح المصدر للنموذج التفاعلي للعالم WBench

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
جامعة فودان وMeituan LongCat قد أطلقا WBench، وهو معيار لتقييم توليد الفيديو في نماذج العوالم التفاعلية. يضم WBench 289 حالة اختبار و1058 جولة تفاعل، مع مقاييس الدعم والمقاومة عبر الملاحة، والإجراءات، والتحكم في وجهة النظر. يستخدم المعيار النص، ووضعيات 6-DoF، والإجراءات المنفصلة للمقارنات عبر التحكم. يشمل التقييم 22 مقياسًا، مع ارتباط قوي بالتقييمات البشرية. كشفت الاختبارات أن الدقة الفيزيائية والعرض متوافقان، بينما تتخلف قدرات التحكم. يسلط تحليل الاهتمام المفتوح الضوء على نقاط ضعف النموذج في التفاعلات متعددة الجولات، حيث ينخفض التحكم في الملاحة بأسرع معدل. يتصدر HY-World 1.5 من حيث الاستقرار، بينما يتفوق LingBot-World في الاتساق. تظل وجهات النظر من المنظور الأول والمواضيع الصلبة أسهل، بينما تظل المواضيع غير الصلبة تحديًا مستمرًا.
ME AI رسالة، وفقًا لمراقبة Beating، قام فريق من جامعة فودان وفريق Longcat من Meituan بإطلاق مفتوح المصدر معيار WBench للنماذج التفاعلية للعالم، والذي يقيم القدرة الأساسية على النمذجة في مجالات القواعد الفيزيائية، والاتساق المكاني-الزماني، والتحكم التفاعلي في توليد الفيديو. يحتوي المعيار على 289 حالة اختبار و1058 جولة تفاعل، ويشمل منظورين من أول وثالث شخص، ويجمع بين التحكم في الملاحة، وحركات الكيانات، وتحرير الأحداث، وتبديل الزوايا. يوحد WBench واجهات تعليمات النص، وموضع بستة درجات من الحرية، وواجهات الأفعال المنفصلة، مما يمكّن المقارنة عبر أنماط التحكم المختلفة. يتضمن نظام التقييم 22 مؤشرًا آليًا، حيث يحقق معامل ارتباط رتب سبيرمان بين نتائج التقييم والفوز في الاختبارات البصرية البشرية ما لا يقل عن 0.94. أظهرت الاختبارات أنه مقارنةً بجودة الفيديو التي تقترب من التشبع، فإن التحكم التفاعلي ومستويات التصوير والاتساق والفيزياء للنموذج تقريبًا مستقلة. لا يضمن التحكم في حركة الكاميرا اتساق الكيانات؛ فعلى سبيل المثال، تواجه HY-World 1.5 وMatrix-Game 3.0، اللتان تتمتعان بأداء ممتاز في الملاحة، مشكلات في فقدان هوية الكيان وانحراف الزاوية عند المنظور الثالث. في الوقت نفسه، هناك ارتباط قوي بين الدقة الفيزيائية وجودة التصوير، لكن الارتباط مع قدرة التحكم يكاد يكون صفرًا. تتصدر النماذج المفتوحة المصدر في عدة أبعاد: حققت HY-World 1.5 أعلى درجة في التحكم بالملاحة، واحتلت LingBot-World المرتبة الأولى في الاتساق، بينما حصلت Matrix-Game 3.0 على المرتبة الأولى في الملاحة والحركة. تشير التفاعلات المتعددة إلى أن أداء جميع النماذج يتدهور مع زيادة عدد الجولات، حيث يتدهور التحكم بالملاحة بأسرع معدل بسبب التراكم التدريجي للانحراف المكاني. يمكن للتحكم الهندسي الصريح تخفيف الانحراف بشكل فعال؛ فعلى سبيل المثال، تفوقت HY-World 1.5 في الاستقرار على مدى عدة جولات بشكل كبير على Kling 3.0 المدعوم بالنص. تمثل الديناميكيات المشهدية وصلابة الكيانات المنطق الأساسي لصعوبة المعيار؛ فالمنظور الأول والمشهد الثابت والكيانات الروبوتية الصلبة سهلة التنفيذ بسهولة، بينما تظل الحركات المفاجئة والحيوانات وغيرها من الكيانات غير الصلبة التي تتعرض لتشوهات وتعقيدات السرعة تحديًا طويل الأمد للصناعة. (المصدر: BlockBeats)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.