Команда из пяти университетов разработала визуально управляемую платформу 3D-навигации для цифровых людей

Согласно новости ME, 14 апреля (UTC+8), по данным мониторинга 1M AI News, совместная команда Пекинского университета, Университета Карнеги-Меллон, Тонджи University, Калифорнийского университета в Лос-Анджелесе и Университета Мичигана опубликовала на arXiv VGHuman — фреймворк встраиваемого ИИ, позволяющий цифровым агентам самостоятельно действовать в незнакомых 3D-средах исключительно на основе визуального восприятия. Ранее системы цифровых агентов в основном полагались на предустановленные сценарии или привилегированную информацию о состоянии; VGHuman ставит своей целью дать цифровым агентам настоящие «глаза», чтобы они могли сами видеть путь, планировать и действовать. Фреймворк состоит из двух уровней. Уровень мира (World Layer) восстанавливает 3D-сцену с семантической аннотацией и сеткой столкновений из однокамерного видео; благодаря дизайну, учитывающему закрытие объектов, он способен распознавать мелкие объекты, скрытые в сложных внешних средах. Уровень агента (Agent Layer) оснащает цифрового агента восприятием в первом лице RGB-D (цвет + глубина), генерируя планы с помощью пространственных визуальных подсказок и итеративных рассуждений, которые затем преобразуются в последовательности полнотелых движений с помощью модели диффузии. На базе 200 тестовых сценариев навигации, охватывающих три уровня сложности — простые маршруты, обход препятствий и динамические пешеходы — VGHuman показал на 30 процентных пунктов более высокий процент успешного выполнения задач по сравнению с лучшими базовыми моделями, такими как NaVILA, NaVid и Uni-NaVid, при этом уровень столкновений остался на том же уровне или ниже. Фреймворк также поддерживает различные стили движения, включая бег и прыжки, а также долгосрочное планирование для посещения нескольких последовательных целей. Код и модель планируется открыть; репозиторий на GitHub уже создан. (Источник: BlockBeats)