Un equipo de cinco universidades desarrolla un marco de navegación 3D guiado por visión para humanos digitales

Noticias de ME: el 14 de abril (UTC+8), según el monitoreo de 1M AI News, un equipo conjunto de la Universidad de Pekín, la Universidad Carnegie Mellon, la Universidad de Tongji, la Universidad de California en Los Ángeles y la Universidad de Michigan publicó en arXiv VGHuman, un marco de IA encarnada que permite a los personajes digitales moverse autónomamente en escenarios 3D desconocidos únicamente mediante percepción visual. Anteriormente, los sistemas de personajes digitales dependían en su mayoría de guiones preestablecidos o información de estado privilegiada; VGHuman se propuso dotar a los personajes digitales de verdaderos ojos, para que puedan ver, planificar y actuar por sí mismos. El marco consta de dos capas. La capa World reconstruye una escena 3D de gaussiana semántica y con malla de colisión a partir de video monocular; su diseño sensible a obstrucciones le permite identificar objetos pequeños ocultos incluso en entornos exteriores complejos. La capa Agent equipa al personaje digital con percepción RGB-D (color + profundidad) desde primera persona, generando planes mediante indicaciones visuales de percepción espacial e inferencia iterativa, que finalmente se convierten en secuencias de movimientos corporales completos mediante un modelo de difusión. En una benchmark de navegación con 200 escenarios de prueba, en tres niveles de dificultad —rutas simples, evasión de obstáculos y peatones dinámicos—, VGHuman superó en hasta 30 puntos porcentuales a las mejores líneas base como NaVILA, NaVid y Uni-NaVid, con tasas de colisión iguales o inferiores. El marco también admite múltiples estilos de movimiento, como correr y saltar, así como planificación a largo plazo para acceder a múltiples objetivos consecutivos. El código y los modelos se planean abrir al público; ya se ha creado el repositorio en GitHub. (Fuente: BlockBeats)