Fudan та Meituan LongCat відкрили джерела інтерактивного світового моделювання WBench

ME AI Новина: за даними моніторингу Beating, Фуданський університет та команда Meituan Longcat спільно відкрили код інтерактивного базису моделей світу WBench для оцінки здатності моделей генерації відео до основного моделювання фізичних правил, просторово-часової узгодженості та інтерактивного керування. Базис містить 289 тестових випадків та 1058 інтерактивних циклів, охоплюючи обидва кути зору — першу та третю особу — і поєднує навігаційне керування, дії суб’єкта, редагування подій та зміну кута зору. WBench уніфікує текстові інструкції, шість ступенів свободи позиції та дискретні інтерфейси дій, забезпечуючи порівняння між різними парадигмами керування. Система оцінки включає 22 автоматичні метрики, результати яких мають коефіцієнт кореляції Спірмена між рангами та частотою перемог у сліпих людських тестах не менше 0,94. Тестування показало, що у порівнянні з відеоякістю, яка майже досягла насичення, інтерактивне керування та здатності моделей щодо рендерингу, узгодженості та фізики майже повністю роз’єднані. Керування рухом камери не гарантує узгодженості суб’єкта: наприклад, HY-World 1.5 та Matrix-Game 3.0, які добре впоралися з навігацією, стикаються з проблемами втрати ідентичності суб’єкта та зсуву кута зору в третьому об’єктиві. Крім того, фізична коректність сильно корелює з якістю рендерингу, але майже не пов’язана з керувальними здатностями. Відкриті моделі світу лідирують за кількома параметрами: HY-World 1.5 отримав найвищий бал за навігаційним керуванням, LingBot-World посів перше місце за узгодженістю, а Matrix-Game 3.0 — перше місце в діях навігації. Багатокрокове інтерактивне тестування показало, що продуктивність усіх моделей знижується з кожною наступною ітерацією, причому навігаційне керування найшвидше деградує через накопичення просторових похибок. Явне геометричне керування ефективно зменшує зсув: наприклад, багатокрокова стабільність HY-World 1.5 значно перевищує Kling 3.0, що керується текстом. Динаміка сцен та жорсткість суб’єктів є основною логікою складності базису: перша особа, статичні сцени та жорсткі роботи легко пройдуть тест, тоді як інтенсивний рух та тварини — нежорсткі суб’єкти — через деформації та складність швидкості залишаються довгостроковим викликом для галузі. (Джерело: BlockBeats)