Команда из пяти университетов разработала визуально управляемую платформу 3D-навигации для цифровых людей

iconKuCoinFlash
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Совместная команда из Пекинского университета, Университета Карнеги-Меллон, Тонджи, Калифорнийского университета в Лос-Анджелесе и Мичиганского университета разработала VGHuman — визуально управляемую ИИ-систему, позволяющую цифровым людям ориентироваться в 3D-средах. Система показала повышение успешности выполнения задач на 30 процентных пунктов по сравнению с ведущими базовыми моделями в 200 тестовых случаях. Проект соответствует текущим усилиям по созданию рамок соответствия для регулирования новых цифровых активов.

Согласно новости ME, 14 апреля (UTC+8), по данным мониторинга 1M AI News, совместная команда Пекинского университета, Университета Карнеги-Меллон, Тонджи University, Калифорнийского университета в Лос-Анджелесе и Университета Мичигана опубликовала на arXiv VGHuman — фреймворк встраиваемого ИИ, позволяющий цифровым агентам самостоятельно действовать в незнакомых 3D-средах исключительно на основе визуального восприятия. Ранее системы цифровых агентов в основном полагались на предустановленные сценарии или привилегированную информацию о состоянии; VGHuman ставит своей целью дать цифровым агентам настоящие «глаза», чтобы они могли сами видеть путь, планировать и действовать. Фреймворк состоит из двух уровней. Уровень мира (World Layer) восстанавливает 3D-сцену с семантической аннотацией и сеткой столкновений из однокамерного видео; благодаря дизайну, учитывающему закрытие объектов, он способен распознавать мелкие объекты, скрытые в сложных внешних средах. Уровень агента (Agent Layer) оснащает цифрового агента восприятием в первом лице RGB-D (цвет + глубина), генерируя планы с помощью пространственных визуальных подсказок и итеративных рассуждений, которые затем преобразуются в последовательности полнотелых движений с помощью модели диффузии. На базе 200 тестовых сценариев навигации, охватывающих три уровня сложности — простые маршруты, обход препятствий и динамические пешеходы — VGHuman показал на 30 процентных пунктов более высокий процент успешного выполнения задач по сравнению с лучшими базовыми моделями, такими как NaVILA, NaVid и Uni-NaVid, при этом уровень столкновений остался на том же уровне или ниже. Фреймворк также поддерживает различные стили движения, включая бег и прыжки, а также долгосрочное планирование для посещения нескольких последовательных целей. Код и модель планируется открыть; репозиторий на GitHub уже создан. (Источник: BlockBeats)

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.