Fudan та Meituan LongCat відкрили джерела інтерактивного світового моделювання WBench
KuCoinFlash
Поділитися
Короткий зміст
Університет Фудань та Meituan LongCat відкрили WBench — набір для оцінки генерації відео в інтерактивних світових моделях. WBench містить 289 тестових випадків і 1 058 інтерактивних раундів, з метриками підтримки та опору у навігації, діях та керуванні кутом огляду. Набір використовує текст, 6-DoF позиції та дискретні дії для порівняння між різними системами керування. Оцінка включає 22 метрики, які показують сильну кореляцію з людськими оцінками. Тестування виявило, що фізична точність та візуалізація добре збігаються, але здатність до керування відстає. Аналіз відкритого інтересу підкреслює слабкості моделей у багатораундових інтеракціях, при цьому керування навігацією найшвидше погіршується. HY-World 1.5 лідирує за стабільністю, а LingBot-World — за послідовністю. Перспектива від першої особи та жорсткі об’єкти залишаються простішими, тоді як нежорсткі об’єкти залишаються складною проблемою.
ME AI Новина: за даними моніторингу Beating, Фуданський університет та команда Meituan Longcat спільно відкрили код інтерактивного базису моделей світу WBench для оцінки здатності моделей генерації відео до основного моделювання фізичних правил, просторово-часової узгодженості та інтерактивного керування. Базис містить 289 тестових випадків та 1058 інтерактивних циклів, охоплюючи обидва кути зору — першу та третю особу — і поєднує навігаційне керування, дії суб’єкта, редагування подій та зміну кута зору. WBench уніфікує текстові інструкції, шість ступенів свободи позиції та дискретні інтерфейси дій, забезпечуючи порівняння між різними парадигмами керування. Система оцінки включає 22 автоматичні метрики, результати яких мають коефіцієнт кореляції Спірмена між рангами та частотою перемог у сліпих людських тестах не менше 0,94. Тестування показало, що у порівнянні з відеоякістю, яка майже досягла насичення, інтерактивне керування та здатності моделей щодо рендерингу, узгодженості та фізики майже повністю роз’єднані. Керування рухом камери не гарантує узгодженості суб’єкта: наприклад, HY-World 1.5 та Matrix-Game 3.0, які добре впоралися з навігацією, стикаються з проблемами втрати ідентичності суб’єкта та зсуву кута зору в третьому об’єктиві. Крім того, фізична коректність сильно корелює з якістю рендерингу, але майже не пов’язана з керувальними здатностями. Відкриті моделі світу лідирують за кількома параметрами: HY-World 1.5 отримав найвищий бал за навігаційним керуванням, LingBot-World посів перше місце за узгодженістю, а Matrix-Game 3.0 — перше місце в діях навігації. Багатокрокове інтерактивне тестування показало, що продуктивність усіх моделей знижується з кожною наступною ітерацією, причому навігаційне керування найшвидше деградує через накопичення просторових похибок. Явне геометричне керування ефективно зменшує зсув: наприклад, багатокрокова стабільність HY-World 1.5 значно перевищує Kling 3.0, що керується текстом. Динаміка сцен та жорсткість суб’єктів є основною логікою складності базису: перша особа, статичні сцени та жорсткі роботи легко пройдуть тест, тоді як інтенсивний рух та тварини — нежорсткі суб’єкти — через деформації та складність швидкості залишаються довгостроковим викликом для галузі. (Джерело: BlockBeats)
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.