Une équipe de cinq universités développe un cadre de navigation 3D guidé par la vision pour les êtres numériques

Selon les nouvelles de ME, le 14 avril (UTC+8), selon le suivi de 1M AI News, une équipe conjointe de l'Université de Pékin, de l'Université Carnegie Mellon, de l'Université Tongji, de l'Université de Californie à Los Angeles et de l'Université du Michigan a publié sur arXiv VGHuman, un cadre d'IA incarnée permettant à des entités numériques d'agir de manière autonome dans des scènes 3D inconnues uniquement grâce à la perception visuelle. Jusqu'à présent, les systèmes d'entités numériques reposaient généralement sur des scripts prédéfinis ou des informations d'état privilégiées pour fonctionner ; VGHuman vise à doter ces entités de véritables yeux, leur permettant de voir, planifier et agir par elles-mêmes. Le cadre se compose de deux niveaux. Le World Layer reconstruit une scène 3D en gaussiens avec des annotations sémantiques et une grille de collision à partir d'une vidéo monocular ; sa conception sensible aux occlusions lui permet d'identifier des objets petits et cachés même dans des environnements extérieurs complexes. Le Agent Layer équipe l'entité numérique d'une perception RGB-D en première personne (couleur + profondeur), génère une planification grâce à des indices visuels spatiaux et un raisonnement itératif, puis convertit cette planification en une séquence d'actions corporelles via un modèle de diffusion pour animer le personnage. Sur un benchmark de navigation comprenant 200 scènes de test, réparties en trois niveaux de difficulté — trajets simples, contournement d'obstacles, piétons dynamiques — VGHuman atteint un taux de réussite supérieur d'environ 30 points de pourcentage par rapport aux meilleures lignes de base telles que NaVILA, NaVid et Uni-NaVid, tout en affichant un taux de collision équivalent ou inférieur. Le cadre prend également en charge divers styles de mouvement, tels que courir et sauter, ainsi que la planification à long terme pour atteindre plusieurs objectifs consécutifs. Le code et les modèles seront ouverts, et un dépôt GitHub a déjà été créé. (Source : BlockBeats)