Pasukan Lima Universiti Membangunkan Kerangka Navigasi 3D Berpandukan Visual untuk Manusia Digital

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sebuah pasukan bersama dari Universiti Peking, Universiti Carnegie Mellon, Universiti Tongji, UCLA, dan Universiti Michigan telah membangunkan VGHuman, kerangka AI yang dipandu visual yang membolehkan manusia digital bergerak di persekitaran 3D. Sistem ini mencapai peningkatan 30 peratus dalam kadar kejayaan tugas berbanding garis dasar terkemuka dalam 200 kes ujian. Projek ini selari dengan usaha berterusan untuk membina kerangka pematuhan bagi peraturan aset digital yang muncul.

Berita ME, 14 April (UTC+8), menurut pemantauan 1M AI News, pasukan bersama dari Universiti Peking, Universiti Carnegie Mellon, Universiti Tongji, Universiti California, Los Angeles, dan Universiti Michigan telah mempublikasikan VGHuman di arXiv, sebuah kerangka AI tubuh yang membolehkan avatar digital bergerak secara autonomi dalam adegan 3D asing hanya berdasarkan persepsi visual. Sebelum ini, sistem avatar digital secara umum bergantung pada skrip pra-ditetapkan atau maklumat status istimewa untuk mendorong pergerakan; VGHuman bertujuan memberikan "mata" sejati kepada avatar digital, membolehkannya melihat jalan sendiri, merancang, dan bertindak. Kerangka ini terbahagi kepada dua lapisan. Lapisan Dunia membangkitkan adegan 3D Gaussian dengan anotasi semantik dan grid perlanggaran daripada video monokular, dengan reka bentuk kesedaran halangan yang membolehkannya mengenal pasti objek kecil yang terhalang dalam persekitaran luar yang kompleks. Lapisan Agen membekalkan avatar digital dengan persepsi RGB-D perspektif pertama (warna + kedalaman), menghasilkan perancangan melalui petunjuk visual kesedaran ruang dan penalaran berulang, kemudian menukar ia kepada urutan gerakan seluruh badan melalui model penyebaran untuk menggerakkan pergerakan watak. Dalam ujian navigasi pada 200 adegan, di tiga peringkat kesukaran—laluan mudah, mengelak halangan, dan pejalan kaki dinamik—kejayaan tugas VGHuman melebihi garis dasar terkuat seperti NaVILA, NaVid, dan Uni-NaVid sebanyak kira-kira 30 peratus, dengan kadar perlanggaran yang sama atau lebih rendah. Kerangka ini juga menyokong pelbagai gaya pergerakan seperti berlari dan melompat, serta perancangan jarak jauh untuk mengakses beberapa sasaran secara berterusan. Kod dan model akan dibuka sumber, dan repositori GitHub telah ditubuhkan. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.