Balita mula sa ME News, noong Abril 14 (UTC+8), ayon sa pagmamasid ng 1M AI News, ang isang samahang pinagsama ng Peking University, Carnegie Mellon University, Tongji University, University of California, Los Angeles, at University of Michigan ay nag-post ng VGHuman sa arXiv—isang embodied AI framework na nagpapahintulot sa mga digital human na magsagawa ng sariling aksyon sa mga bagong 3D environment gamit lamang ang visual perception. Noon, ang mga sistema ng digital human ay karaniwang nakadepende sa pre-set scripts o privileged state information; ang VGHuman naman ay naglalayong bigyan ang mga digital human ng totoong mata, upang makakita, magplano, at mag-aksyon nang sarili nila. Ang framework ay binubuo ng dalawang antas. Ang World Layer ay nagre-reconstruct ng 3D Gaussian scene mula sa monocular video, na may semantic annotation at collision mesh; ang nakakakita sa pagkakatago na disenyo nito ay nagpapahintulot sa pagkilala sa mga maliit na bagay na nakatago sa mga kumplikadong labas na kapaligiran. Ang Agent Layer ay nagbibigay ng first-person RGB-D (kulay + depth) perception sa digital human, at gumagamit ng spatial-aware visual prompts at iterative reasoning upang makagawa ng plano, na pagkatapos ay isinasalin sa isang全身动作序列 na ginagawa ng diffusion model upang mapagalaw ang karakter. Sa benchmark ng navigation na may 200 test scenarios, sa tatlong antas ng hirap—simple path, obstacle avoidance, at dynamic pedestrians—ang VGHuman ay nakamit ang pinakamataas na task success rate, na mas mataas ng halos 30 puntos kumpara sa mga pinakamalakas na baseline tulad ng NaVILA, NaVid, at Uni-NaVid, habang ang collision rate ay pareho o mas mababa. Ang framework ay sumusuporta rin sa iba’t ibang estilo ng paggalaw tulad ng pagtakbo at paglalaro, pati na rin ang long-range planning na mayroong access sa maraming target nang tuloy-tuloy. Ang code at model ay plano na ilabas bilang open-source, at ang GitHub repository ay nai-establish na. (Pinagkunan: BlockBeats)
Lima-unibersidad na tim ay nagbuo ng Visual-Guided 3D Navigation Framework para sa mga Digital Humans
KuCoinFlashI-share






Isang samahang team mula sa Peking University, Carnegie Mellon University, Tongji University, UCLA, at University of Michigan ay nagbuo ng VGHuman, isang visual-guided AI framework na nagpapahintulot sa mga digital na tao na mag-navigate sa 3D mga kapaligiran. Nakamit ng sistema ang 30 puntos na pagpapabuti sa rate ng tagumpay sa mga gawain sa 200 mga pagsubok. Ang proyekto ay tumutugma sa mga kasalukuyang pagsisikap na bumuo ng isang framework para sa pagkakasunod sa bagong regulasyon para sa mga digital na aset.
Source:Ipakita ang original
Disclaimer: Ang information sa page na ito ay maaaring nakuha mula sa mga third party at hindi necessary na nagre-reflect sa mga pananaw o opinyon ng KuCoin. Ibinigay ang content na ito para sa mga pangkalahatang informational purpose lang, nang walang anumang representation o warranty ng anumang uri, at hindi rin ito dapat ipakahulugan bilang financial o investment advice. Hindi mananagot ang KuCoin para sa anumang error o omission, o para sa anumang outcome na magreresulta mula sa paggamit ng information na ito.
Maaaring maging risky ang mga investment sa mga digital asset. Pakisuri nang maigi ang mga risk ng isang produkto at ang risk tolerance mo batay sa iyong sariling kalagayang pinansyal. Para sa higit pang information, mag-refer sa aming Terms ng Paggamit at Disclosure ng Risk.