Pasukan Lima Universiti Membangunkan Kerangka Navigasi 3D Berpandukan Visual untuk Manusia Digital

Berita ME, 14 April (UTC+8), menurut pemantauan 1M AI News, pasukan bersama dari Universiti Peking, Universiti Carnegie Mellon, Universiti Tongji, Universiti California, Los Angeles, dan Universiti Michigan telah mempublikasikan VGHuman di arXiv, sebuah kerangka AI tubuh yang membolehkan avatar digital bergerak secara autonomi dalam adegan 3D asing hanya berdasarkan persepsi visual. Sebelum ini, sistem avatar digital secara umum bergantung pada skrip pra-ditetapkan atau maklumat status istimewa untuk mendorong pergerakan; VGHuman bertujuan memberikan "mata" sejati kepada avatar digital, membolehkannya melihat jalan sendiri, merancang, dan bertindak. Kerangka ini terbahagi kepada dua lapisan. Lapisan Dunia membangkitkan adegan 3D Gaussian dengan anotasi semantik dan grid perlanggaran daripada video monokular, dengan reka bentuk kesedaran halangan yang membolehkannya mengenal pasti objek kecil yang terhalang dalam persekitaran luar yang kompleks. Lapisan Agen membekalkan avatar digital dengan persepsi RGB-D perspektif pertama (warna + kedalaman), menghasilkan perancangan melalui petunjuk visual kesedaran ruang dan penalaran berulang, kemudian menukar ia kepada urutan gerakan seluruh badan melalui model penyebaran untuk menggerakkan pergerakan watak. Dalam ujian navigasi pada 200 adegan, di tiga peringkat kesukaran—laluan mudah, mengelak halangan, dan pejalan kaki dinamik—kejayaan tugas VGHuman melebihi garis dasar terkuat seperti NaVILA, NaVid, dan Uni-NaVid sebanyak kira-kira 30 peratus, dengan kadar perlanggaran yang sama atau lebih rendah. Kerangka ini juga menyokong pelbagai gaya pergerakan seperti berlari dan melompat, serta perancangan jarak jauh untuk mengakses beberapa sasaran secara berterusan. Kod dan model akan dibuka sumber, dan repositori GitHub telah ditubuhkan. (Sumber: BlockBeats)