Une équipe de cinq universités développe un cadre de navigation 3D guidé par la vision pour les êtres numériques

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Une équipe conjointe de l'Université de Pékin, de l'Université Carnegie Mellon, de l'Université Tongji, de l'UCLA et de l'Université du Michigan a développé VGHuman, un cadre d'IA guidé par la vision qui permet aux êtres numériques de naviguer dans des environnements 3D. Le système a obtenu une amélioration de 30 points de pourcentage au taux de réussite des tâches par rapport aux meilleures solutions de référence sur 200 cas de test. Ce projet s'inscrit dans les efforts en cours pour établir un cadre de conformité pour la régulation émergente des actifs numériques.

Selon les nouvelles de ME, le 14 avril (UTC+8), selon le suivi de 1M AI News, une équipe conjointe de l'Université de Pékin, de l'Université Carnegie Mellon, de l'Université Tongji, de l'Université de Californie à Los Angeles et de l'Université du Michigan a publié sur arXiv VGHuman, un cadre d'IA incarnée permettant à des entités numériques d'agir de manière autonome dans des scènes 3D inconnues uniquement grâce à la perception visuelle. Jusqu'à présent, les systèmes d'entités numériques reposaient généralement sur des scripts prédéfinis ou des informations d'état privilégiées pour fonctionner ; VGHuman vise à doter ces entités de véritables yeux, leur permettant de voir, planifier et agir par elles-mêmes. Le cadre se compose de deux niveaux. Le World Layer reconstruit une scène 3D en gaussiens avec des annotations sémantiques et une grille de collision à partir d'une vidéo monocular ; sa conception sensible aux occlusions lui permet d'identifier des objets petits et cachés même dans des environnements extérieurs complexes. Le Agent Layer équipe l'entité numérique d'une perception RGB-D en première personne (couleur + profondeur), génère une planification grâce à des indices visuels spatiaux et un raisonnement itératif, puis convertit cette planification en une séquence d'actions corporelles via un modèle de diffusion pour animer le personnage. Sur un benchmark de navigation comprenant 200 scènes de test, réparties en trois niveaux de difficulté — trajets simples, contournement d'obstacles, piétons dynamiques — VGHuman atteint un taux de réussite supérieur d'environ 30 points de pourcentage par rapport aux meilleures lignes de base telles que NaVILA, NaVid et Uni-NaVid, tout en affichant un taux de collision équivalent ou inférieur. Le cadre prend également en charge divers styles de mouvement, tels que courir et sauter, ainsi que la planification à long terme pour atteindre plusieurs objectifs consécutifs. Le code et les modèles seront ouverts, et un dépôt GitHub a déjà été créé. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.