Fudan и Meituan LongCat запускают открытый бенчмарк интерактивной мировой модели WBench
KuCoinFlash
Поделиться
Сводка
Университет Фудань и Meituan LongCat открыли исходный код WBench — набора тестов для оценки генерации видео в интерактивных моделях мира. WBench включает 289 тестовых случаев и 1 058 циклов взаимодействия с метриками поддержки и сопротивления по навигации, действиям и управлению точкой зрения. В наборе используются текст, 6-DoF позы и дискретные действия для сравнения кросс-управления. Оценка включает 22 метрики, демонстрирующих сильную корреляцию с человеческими оценками. Тестирование показало, что физическая точность и рендеринг согласованы, тогда как возможности управления отстают. Анализ открытого интереса выявил слабые места моделей в многократных взаимодействиях, причем управление навигацией снижается быстрее всего. HY-World 1.5 лидирует по стабильности, а LingBot-World — по согласованности. Первые перспективы и жесткие объекты остаются более простыми, тогда как нежесткие объекты продолжают представлять сложность.
ME AI Сообщение: согласно мониторингу Beating, Фуданьский университет и команда Meituan Longcat совместно открыли исходный код интерактивного эталонного набора для моделей мира — WBench, предназначенного для оценки базовых возможностей моделей в генерации видео по физическим законам, пространственно-временной согласованности и интерактивному управлению. Эталонный набор включает 289 тестовых случаев и 1058 циклов взаимодействия, охватывая оба ракурса — от первого и третьего лица — и интегрируя навигационное управление, действия персонажей, редактирование событий и смену ракурса. WBench унифицирует текстовые инструкции, шестимерные позы и дискретные интерфейсы действий, обеспечивая сравнение различных парадигм управления. Система оценки включает 22 автоматических метрики, чьи результаты демонстрируют коэффициент ранговой корреляции Спирмена не менее 0,94 с результатами слепого человеческого тестирования. Тесты показывают, что в отличие от насыщающегося качества видео, интерактивное управление, рендеринг, согласованность и физическая точность модели практически декомпозированы. Управление движением камеры не гарантирует согласованность персонажей: например, HY-World 1.5 и Matrix-Game 3.0, демонстрирующие отличную навигацию, сталкиваются с проблемами потери идентичности персонажа и смещения ракурса при виде от третьего лица. В то же время физическая корректность тесно коррелирует с качеством рендеринга, но почти не связана с возможностями управления. Открытые модели мира лидируют по нескольким параметрам: HY-World 1.5 показал наивысший результат в навигационном управлении, LingBot-World занял первое место по согласованности, а Matrix-Game 3.0 возглавил рейтинг в управлении действиями. Многократные взаимодействия показали, что производительность всех моделей снижается с увеличением числа циклов, причем навигационное управление деградирует быстрее всего из-за накопления пространственных отклонений. Явное геометрическое управление эффективно смягчает смещение: например, многократная стабильность HY-World 1.5 значительно превосходит текстово-ориентированный Kling 3.0. Динамика сцены и жесткость персонажей составляют основную логику сложности эталонного набора: первое лицо, статичные сцены и жесткие роботизированные персонажи легко проходят тесты, тогда как интенсивные движения и не жесткие существа, такие как животные, остаются долгосрочным вызовом для индустрии из-за сложности деформаций и динамики скорости. (Источник: BlockBeats)
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.