Fudan และ Meituan LongCat เปิดตัวแบบจำลองโลกแบบโต้ตอบแบบโอเพนซอร์ส WBench

iconKuCoinFlash
แชร์
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconสรุป

expand icon
มหาวิทยาลัยฟูดันและเม่ยตuan LongCat ได้เปิดแหล่งที่มาของ WBench ซึ่งเป็นมาตรฐานสำหรับการประเมินการสร้างวิดีโอในโมเดลโลกแบบโต้ตอบ WBench มีกรณีทดสอบ 289 กรณีและรอบการโต้ตอบ 1,058 รอบ โดยมีตัวชี้วัดการสนับสนุนและการต้านทานในด้านการนำทาง การกระทำ และการควบคุมมุมมอง มาตรฐานนี้ใช้ข้อความ ท่าทาง 6-DoF และการกระทำแบบไม่ต่อเนื่องเพื่อเปรียบเทียบการควบคุมข้ามระบบ การประเมินรวมถึงตัวชี้วัด 22 ตัว ซึ่งแสดงความสัมพันธ์ที่แข็งแกร่งกับคะแนนจากมนุษย์ การทดสอบเปิดเผยว่าความแม่นยำทางกายภาพและการเรนเดอร์สอดคล้องกัน ขณะที่ความสามารถในการควบคุมยังตามหลัง การวิเคราะห์ความสนใจเปิดเผยจุดอ่อนของโมเดลในการโต้ตอบหลายรอบ โดยการควบคุมการนำทางลดลงเร็วที่สุด HY-World 1.5 นำหน้าในด้านความเสถียร ในขณะที่ LingBot-World โดดเด่นในด้านความสม่ำเสมอ มุมมองแบบบุคคลที่หนึ่งและวัตถุที่แข็งยังคงง่ายกว่า ในขณะที่วัตถุที่ไม่แข็งยังคงเป็นความท้าทายอยู่
ME AI ข่าว ตามการตรวจสอบของ Beating ทีมจากมหาวิทยาลัยฟูตันและ Meituan Longcat ได้เปิดตัวฐานข้อมูลอ้างอิงแบบโต้ตอบสำหรับโมเดลโลก WBench เพื่อประเมินความสามารถพื้นฐานในการสร้างวิดีโอในด้านกฎทางฟิสิกส์ ความสอดคล้องเชิงเวลาและอวกาศ และการควบคุมแบบโต้ตอบ ฐานข้อมูลนี้ประกอบด้วย 289 กรณีทดสอบและ 1,058 รอบการโต้ตอบ ครอบคลุมมุมมองแบบบุคคลที่หนึ่งและบุคคลที่สาม รวมถึงการควบคุมการนำทาง การกระทำของตัวละคร การแก้ไขเหตุการณ์ และการเปลี่ยนมุมมอง WBench ได้รวมอินเทอร์เฟซคำสั่งข้อความ ท่าทาง 6 องศาอิสระ และการกระทำแบบไม่ต่อเนื่อง เพื่อให้สามารถเปรียบเทียบรูปแบบการควบคุมที่แตกต่างกันได้ ระบบการประเมินประกอบด้วยดัชนีอัตโนมัติ 22 รายการ โดยคะแนนที่ได้สอดคล้องกับอัตราการชนะในการทดสอบแบบไม่รู้ตัวของมนุษย์ โดยมีสัมประสิทธิ์สหสัมพันธ์แบบสเปียร์แมนอย่างน้อย 0.94 การทดสอบแสดงให้เห็นว่า เมื่อเทียบกับคุณภาพวิดีโอที่ใกล้ถึงขีดจำกัด การควบคุมแบบโต้ตอบกับความสามารถในการเรนเดอร์ ความสอดคล้อง และระดับฟิสิกส์ของโมเดลแทบจะไม่มีความเกี่ยวข้องกัน การควบคุมการเคลื่อนไหวของกล้องไม่ได้รับประกันความสอดคล้องของตัวละคร เช่น HY-World 1.5 และ Matrix-Game 3.0 ซึ่งมีประสิทธิภาพการนำทางที่ดี แต่กลับเผชิญกับปัญหาการสูญเสียตัวตนของตัวละครและการเบี่ยงเบนมุมมองเมื่อใช้มุมมองบุคคลที่สาม ในขณะเดียวกัน ความถูกต้องทางฟิสิกส์มีความสัมพันธ์เชิงบวกอย่างมากกับคุณภาพการเรนเดอร์ แต่มีความสัมพันธ์ใกล้เคียงศูนย์กับความสามารถในการควบคุม โมเดลโลกแบบเปิดแหล่งที่มานำหน้าในหลายมิติ: HY-World 1.5 ได้คะแนนสูงสุดในการควบคุมการนำทาง LingBot-World ครองอันดับหนึ่งด้านความสอดคล้อง และ Matrix-Game 3.0 อยู่อันดับหนึ่งในการนำทางด้วยการกระทำ การโต้ตอบหลายรอบแสดงว่าประสิทธิภาพของโมเดลทั้งหมดลดลงตามจำนวนรอบ โดยการควบคุมการนำทางเสื่อมสภาพเร็วที่สุดเนื่องจากความเบี่ยงเบนเชิงพื้นที่สะสม การควบคุมเชิงเรขาคณิตแบบชัดเจนสามารถบรรเทาปัญหาการเบี่ยงเบนได้อย่างมีประสิทธิภาพ เช่น ความเสถียรในหลายรอบของ HY-World 1.5 สูงกว่า Kling 3.0 ที่ขับเคลื่อนด้วยข้อความอย่างมาก ความเปลี่ยนแปลงของฉากและรูปแบบของตัวละครที่เป็นของแข็งเป็นตรรกะพื้นฐานของความยากในฐานข้อมูลนี้: มุมมองบุคคลที่หนึ่ง เวทีนิ่ง และตัวละครหุ่นยนต์แบบของแข็งสามารถทำงานได้ง่าย ในขณะที่การเคลื่อนไหวรุนแรงและตัวละครที่ไม่ใช่ของแข็ง เช่น สัตว์ เนื่องจากความซับซ้อนของการเปลี่ยนรูปและแรงเคลื่อนไหวยังคงเป็นความท้าทายระยะยาวของอุตสาหกรรม (ที่มา: BlockBeats)
แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้ การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา