Tim Lima Universitas Mengembangkan Kerangka Kerja Navigasi 3D Berbantuan Visual untuk Manusia Digital

Berita ME, 14 April (UTC+8), menurut pemantauan 1M AI News, tim kolaboratif dari Universitas Peking, Universitas Carnegie Mellon, Universitas Tongji, Universitas California, Los Angeles, dan Universitas Michigan telah mempublikasikan VGHuman di arXiv, sebuah kerangka kerja AI tubuh yang memungkinkan avatar digital bergerak secara otonom di lingkungan 3D asing hanya berdasarkan persepsi visual. Sebelumnya, sistem avatar digital umumnya bergantung pada skrip yang telah ditentukan atau informasi status istimewa untuk menggerakkannya; VGHuman bertujuan memberikan mata yang benar-benar nyata kepada avatar digital, sehingga ia dapat melihat jalan sendiri, merencanakan, dan bertindak. Kerangka ini terdiri dari dua lapisan. World Layer merekonstruksi adegan 3D Gaussian dengan anotasi semantik dan mesh tabrakan dari video monokuler, dengan desain kesadaran penghalang yang memungkinkannya mengenali objek kecil yang terhalang bahkan di lingkungan luar ruangan yang kompleks. Agent Layer dilengkapi dengan persepsi RGB-D (warna + kedalaman) sudut pandang pertama, yang menggunakan petunjuk visual berbasis spasial dan penalaran iteratif untuk menghasilkan perencanaan, kemudian dikonversi menjadi urutan gerakan tubuh penuh oleh model difusi untuk menggerakkan karakter. Dalam benchmark navigasi dengan 200 skenario pengujian, melintasi tiga tingkat kesulitan—jalur sederhana, menghindari rintangan, dan pejalan kaki dinamis—keberhasilan tugas VGHuman tertinggi melampaui baseline terkuat seperti NaVILA, NaVid, dan Uni-NaVid sekitar 30 poin persentase, dengan tingkat tabrakan yang setara atau lebih rendah. Kerangka ini juga mendukung berbagai gaya gerakan seperti berlari dan melompat, serta perencanaan jarak jauh untuk mengakses beberapa tujuan secara berurutan. Kode dan model direncanakan akan dirilis secara open-source, dan repositori GitHub telah dibuat. (Sumber: BlockBeats)