Fudan และ Meituan LongCat เปิดตัวแบบจำลองโลกแบบโต้ตอบแบบโอเพนซอร์ส WBench

ME AI ข่าว ตามการตรวจสอบของ Beating ทีมจากมหาวิทยาลัยฟูตันและ Meituan Longcat ได้เปิดตัวฐานข้อมูลอ้างอิงแบบโต้ตอบสำหรับโมเดลโลก WBench เพื่อประเมินความสามารถพื้นฐานในการสร้างวิดีโอในด้านกฎทางฟิสิกส์ ความสอดคล้องเชิงเวลาและอวกาศ และการควบคุมแบบโต้ตอบ ฐานข้อมูลนี้ประกอบด้วย 289 กรณีทดสอบและ 1,058 รอบการโต้ตอบ ครอบคลุมมุมมองแบบบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงการควบคุมการนำทาง การกระทำของตัวละคร การแก้ไขเหตุการณ์ และการเปลี่ยนมุมมอง WBench ได้รวมอินเทอร์เฟซคำสั่งข้อความ ท่าทาง 6 องศาอิสระ และการกระทำแบบไม่ต่อเนื่อง เพื่อให้สามารถเปรียบเทียบรูปแบบการควบคุมที่แตกต่างกันได้ ระบบการประเมินประกอบด้วยดัชนีอัตโนมัติ 22 รายการ โดยคะแนนที่ได้สอดคล้องกับอัตราการชนะในการทดสอบแบบไม่รู้ตัวของมนุษย์ โดยมีสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมนอย่างน้อย 0.94 การทดสอบแสดงให้เห็นว่า เมื่อเทียบกับคุณภาพวิดีโอที่ใกล้ถึงขีดจำกัด การควบคุมแบบโต้ตอบกับความสามารถในการเรนเดอร์ ความสอดคล้อง และระดับฟิสิกส์ของโมเดลแทบจะไม่มีความเกี่ยวข้องกัน การควบคุมการเคลื่อนไหวของกล้องไม่ได้รับประกันความสอดคล้องของตัวละคร เช่น HY-World 1.5 และ Matrix-Game 3.0 ซึ่งมีประสิทธิภาพการนำทางที่ดี แต่กลับเผชิญกับปัญหาการสูญเสียตัวตนของตัวละครและการเบี่ยงเบนมุมมองเมื่อใช้มุมมองบุคคลที่สาม ในขณะเดียวกัน ความถูกต้องทางฟิสิกส์มีความสัมพันธ์เชิงบวกอย่างมากกับคุณภาพการเรนเดอร์ แต่มีความสัมพันธ์ใกล้เคียงศูนย์กับความสามารถในการควบคุม โมเดลโลกแบบเปิดแหล่งที่มานำหน้าในหลายมิติ: HY-World 1.5 ได้คะแนนสูงสุดในการควบคุมการนำทาง LingBot-World ครองอันดับหนึ่งด้านความสอดคล้อง และ Matrix-Game 3.0 อยู่อันดับหนึ่งในการนำทางด้วยการกระทำ การโต้ตอบหลายรอบแสดงว่าประสิทธิภาพของโมเดลทั้งหมดลดลงตามจำนวนรอบ โดยการควบคุมการนำทางเสื่อมสภาพเร็วที่สุดเนื่องจากความเบี่ยงเบนเชิงพื้นที่สะสม การควบคุมเชิงเรขาคณิตแบบชัดเจนสามารถบรรเทาปัญหาการเบี่ยงเบนได้อย่างมีประสิทธิภาพ เช่น ความเสถียรในหลายรอบของ HY-World 1.5 สูงกว่า Kling 3.0 ที่ขับเคลื่อนด้วยข้อความอย่างมาก ความเปลี่ยนแปลงของฉากและรูปแบบของตัวละครที่เป็นของแข็งเป็นตรรกะพื้นฐานของความยากในฐานข้อมูลนี้: มุมมองบุคคลที่หนึ่ง เวทีนิ่ง และตัวละครหุ่นยนต์แบบของแข็งสามารถทำงานได้ง่าย ในขณะที่การเคลื่อนไหวรุนแรงและตัวละครที่ไม่ใช่ของแข็ง เช่น สัตว์ เนื่องจากความซับซ้อนของการเปลี่ยนรูปและแรงเคลื่อนไหวยังคงเป็นความท้าทายระยะยาวของอุตสาหกรรม (ที่มา: BlockBeats)