Un equipo de cinco universidades desarrolla un marco de navegación 3D guiado por visión para humanos digitales

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Un equipo conjunto de la Universidad de Pekín, la Universidad Carnegie Mellon, la Universidad Tongji, la UCLA y la Universidad de Michigan ha desarrollado VGHuman, un marco de IA guiado visualmente que permite a los humanos digitales navegar entornos 3D. El sistema logró una mejora de 30 puntos porcentuales en las tasas de éxito de tareas en comparación con las mejores líneas base en 200 casos de prueba. El proyecto se alinea con los esfuerzos en curso para construir un marco de cumplimiento para la regulación emergente de activos digitales.

Noticias de ME: el 14 de abril (UTC+8), según el monitoreo de 1M AI News, un equipo conjunto de la Universidad de Pekín, la Universidad Carnegie Mellon, la Universidad de Tongji, la Universidad de California en Los Ángeles y la Universidad de Michigan publicó en arXiv VGHuman, un marco de IA encarnada que permite a los personajes digitales moverse autónomamente en escenarios 3D desconocidos únicamente mediante percepción visual. Anteriormente, los sistemas de personajes digitales dependían en su mayoría de guiones preestablecidos o información de estado privilegiada; VGHuman se propuso dotar a los personajes digitales de verdaderos ojos, para que puedan ver, planificar y actuar por sí mismos. El marco consta de dos capas. La capa World reconstruye una escena 3D de gaussiana semántica y con malla de colisión a partir de video monocular; su diseño sensible a obstrucciones le permite identificar objetos pequeños ocultos incluso en entornos exteriores complejos. La capa Agent equipa al personaje digital con percepción RGB-D (color + profundidad) desde primera persona, generando planes mediante indicaciones visuales de percepción espacial e inferencia iterativa, que finalmente se convierten en secuencias de movimientos corporales completos mediante un modelo de difusión. En una benchmark de navegación con 200 escenarios de prueba, en tres niveles de dificultad —rutas simples, evasión de obstáculos y peatones dinámicos—, VGHuman superó en hasta 30 puntos porcentuales a las mejores líneas base como NaVILA, NaVid y Uni-NaVid, con tasas de colisión iguales o inferiores. El marco también admite múltiples estilos de movimiento, como correr y saltar, así como planificación a largo plazo para acceder a múltiples objetivos consecutivos. El código y los modelos se planean abrir al público; ya se ha creado el repositorio en GitHub. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.