Команда з п’яти університетів розробила візуально-керовану систему 3D-навігації для цифрових людей

ME News: 14 квітня (UTC+8), за даними 1M AI News, спільна команда Пекінського університету, Університету Карнегі-Меллон, Тонджійського університету, Університету Каліфорнії у Лос-Анджелесі та Університету Мічигану опублікувала на arXiv VGHuman — імбодімент-AI фреймворк, який дозволяє цифровим агентам автономно рухатися в незнайомих 3D-середовищах лише за допомогою візуального сприйняття. Раніше системи цифрових агентів зазвичай залежали від передвизначених сценаріїв або привілейованої інформації про стан. VGHuman ставить за мету надати цифровим агентам справжні «очі», щоб вони могли самостійно бачити шлях, планувати та діяти. Фреймворк складається з двох рівнів. World Layer відновлює 3D-сцену з однокамерного відео, додаючи семантичні анотації та сітку колізій; дизайн, чутливий до перешкод, дозволяє ідентифікувати дрібні об’єкти, приховані в складних зовнішніх середовищах. Agent Layer надає цифровому агенту перспективу RGB-D (кольорова + глибина) та за допомогою просторових візуальних підказок та ітеративного мислення генерує плани, які потім перетворюються на послідовності повного тіла за допомогою моделей дифузії для керування рухом персонажа. У тестовому наборі з 200 сценаріїв навігації, на трьох рівнях складності — простий шлях, обхід перешкод, динамічні пешеходи — VGHuman показав найвищий рівень успішності завдань, перевищивши найсильніші базові моделі, такі як NaVILA, NaVid та Uni-NaVid, приблизно на 30 відсоткових пунктів, при цьому показник зіткнень залишився на тому ж рівні або був нижчим. Фреймворк також підтримує різні стилі руху — біг, стрибки — та довгострокове планування для послідовного досягнення кількох цілей. Код та моделі планують випустити з відкритим доступом; репозиторій GitHub вже створено. (Джерело: BlockBeats)