ME News: 14 квітня (UTC+8), за даними 1M AI News, спільна команда Пекінського університету, Університету Карнегі-Меллон, Тонджійського університету, Університету Каліфорнії у Лос-Анджелесі та Університету Мічигану опублікувала на arXiv VGHuman — імбодімент-AI фреймворк, який дозволяє цифровим агентам автономно рухатися в незнайомих 3D-середовищах лише за допомогою візуального сприйняття. Раніше системи цифрових агентів зазвичай залежали від передвизначених сценаріїв або привілейованої інформації про стан. VGHuman ставить за мету надати цифровим агентам справжні «очі», щоб вони могли самостійно бачити шлях, планувати та діяти. Фреймворк складається з двох рівнів. World Layer відновлює 3D-сцену з однокамерного відео, додаючи семантичні анотації та сітку колізій; дизайн, чутливий до перешкод, дозволяє ідентифікувати дрібні об’єкти, приховані в складних зовнішніх середовищах. Agent Layer надає цифровому агенту перспективу RGB-D (кольорова + глибина) та за допомогою просторових візуальних підказок та ітеративного мислення генерує плани, які потім перетворюються на послідовності повного тіла за допомогою моделей дифузії для керування рухом персонажа. У тестовому наборі з 200 сценаріїв навігації, на трьох рівнях складності — простий шлях, обхід перешкод, динамічні пешеходи — VGHuman показав найвищий рівень успішності завдань, перевищивши найсильніші базові моделі, такі як NaVILA, NaVid та Uni-NaVid, приблизно на 30 відсоткових пунктів, при цьому показник зіткнень залишився на тому ж рівні або був нижчим. Фреймворк також підтримує різні стилі руху — біг, стрибки — та довгострокове планування для послідовного досягнення кількох цілей. Код та моделі планують випустити з відкритим доступом; репозиторій GitHub вже створено. (Джерело: BlockBeats)
Команда з п’яти університетів розробила візуально-керовану систему 3D-навігації для цифрових людей
KuCoinFlashПоділитися






Спільна команда з Пекінського університету, Університету Карнегі-Меллон, Тонджі, UCLA та Університету Мічиган розробила VGHuman — візуально орієнтовану AI-систему, яка дозволяє цифровим людям орієнтуватися в 3D-середовищах. Система досягла покращення на 30 відсоткових пунктів у показниках успішності завдань порівняно з лідирующими базовими моделями у 200 тестових випадках. Проект відповідає поточним зусиллям щодо створення рамок відповідності для регулювання нових цифрових активів.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.