Lima-unibersidad na tim ay nagbuo ng Visual-Guided 3D Navigation Framework para sa mga Digital Humans

Balita mula sa ME News, noong Abril 14 (UTC+8), ayon sa pagmamasid ng 1M AI News, ang isang samahang pinagsama ng Peking University, Carnegie Mellon University, Tongji University, University of California, Los Angeles, at University of Michigan ay nag-post ng VGHuman sa arXiv—isang embodied AI framework na nagpapahintulot sa mga digital human na magsagawa ng sariling aksyon sa mga bagong 3D environment gamit lamang ang visual perception. Noon, ang mga sistema ng digital human ay karaniwang nakadepende sa pre-set scripts o privileged state information; ang VGHuman naman ay naglalayong bigyan ang mga digital human ng totoong mata, upang makakita, magplano, at mag-aksyon nang sarili nila. Ang framework ay binubuo ng dalawang antas. Ang World Layer ay nagre-reconstruct ng 3D Gaussian scene mula sa monocular video, na may semantic annotation at collision mesh; ang nakakakita sa pagkakatago na disenyo nito ay nagpapahintulot sa pagkilala sa mga maliit na bagay na nakatago sa mga kumplikadong labas na kapaligiran. Ang Agent Layer ay nagbibigay ng first-person RGB-D (kulay + depth) perception sa digital human, at gumagamit ng spatial-aware visual prompts at iterative reasoning upang makagawa ng plano, na pagkatapos ay isinasalin sa isang全身动作序列 na ginagawa ng diffusion model upang mapagalaw ang karakter. Sa benchmark ng navigation na may 200 test scenarios, sa tatlong antas ng hirap—simple path, obstacle avoidance, at dynamic pedestrians—ang VGHuman ay nakamit ang pinakamataas na task success rate, na mas mataas ng halos 30 puntos kumpara sa mga pinakamalakas na baseline tulad ng NaVILA, NaVid, at Uni-NaVid, habang ang collision rate ay pareho o mas mababa. Ang framework ay sumusuporta rin sa iba’t ibang estilo ng paggalaw tulad ng pagtakbo at paglalaro, pati na rin ang long-range planning na mayroong access sa maraming target nang tuloy-tuloy. Ang code at model ay plano na ilabas bilang open-source, at ang GitHub repository ay nai-establish na. (Pinagkunan: BlockBeats)