Equipe de cinco universidades desenvolve framework de navegação 3D guiada por visão para humanos digitais

Notícia da ME, 14 de abril (UTC+8): segundo monitoramento da 1M AI News, uma equipe conjunta da Universidade de Pequim, Universidade Carnegie Mellon, Universidade de Tongji, Universidade da Califórnia em Los Angeles e Universidade de Michigan publicou no arXiv o VGHuman, um framework de IA embutida que permite que avatares digitais se movam autonomamente em cenários 3D desconhecidos apenas por meio de percepção visual. Anteriormente, sistemas de avatares digitais dependiam amplamente de scripts pré-definidos ou informações de estado privilegiadas; o VGHuman tem como objetivo dar aos avatares digitais "olhos reais", permitindo que eles vejam, planejem e aja por conta própria. O framework é composto por duas camadas. A World Layer reconstrói uma cena 3D de gaussiana semântica e com malha de colisão a partir de vídeo monocular; seu design sensível a obstruções permite identificar objetos pequenos ocultos mesmo em ambientes externos complexos. A Agent Layer equipa o avatar com percepção RGB-D em primeira pessoa (cor + profundidade), gerando planejamento por meio de pistas visuais de percepção espacial e raciocínio iterativo, que é finalmente convertido em sequências de movimentos corporais por um modelo de difusão. Em benchmarks de navegação com 200 cenários de teste, em três níveis de dificuldade — trajetórias simples, contornos de obstáculos e pedestres dinâmicos — o VGHuman alcançou taxa de sucesso 30 pontos percentuais superior às melhores linhas de base, como NaVILA, NaVid e Uni-NaVid, com taxa de colisão igual ou inferior. O framework também suporta múltiplos estilos de movimento, como correr e pular, além de planejamento de longo prazo para acessar múltiplos objetivos consecutivos. O código e os modelos serão abertos ao público, e o repositório no GitHub já foi criado. (Fonte: BlockBeats)