Beş üniversiteli ekip, dijital insanlar için görsel rehberli 3D navigasyon çerçevesi geliştirdi

ME Haberleri'ne göre, 14 Nisan (UTC+8) tarihinde 1M AI News'in izlemesine göre, Pekin Üniversitesi, Carnegie Mellon Üniversitesi, Tongji Üniversitesi, California Üniversitesi Los Angeles ve Michigan Üniversitesi ortak ekibi, arXiv üzerinde VGHuman'ı yayınladı; bu, dijital bir varlığın yalnızca görsel algı ile yabancı 3D ortamlarda kendi kendine hareket etmesini sağlayan bir vücutlu AI çerçevesidir. Dijital varlık sistemleri daha önce genellikle önceden tanımlanmış senaryolar veya özel durum bilgilerine dayanıyordu; VGHuman, dijital varlıklara gerçek bir göz vererek, kendi yolunu görmesini, planlamasını ve hareket etmesini sağlamayı amaçlıyor. Çerçeve iki katmandan oluşuyor. World Layer, tek gözlü videodan semantik etiketler ve çarpışma ağları ile birlikte 3D Gauss sahnesi oluşturuyor; engel algılamalı tasarımı, karmaşık açık hava ortamlarında engellenen küçük nesneleri hâlâ tanımlamasını sağlıyor. Agent Layer, dijital varlığa birinci kişilik RGB-D (renkli + derinlik) algılaması sağlıyor; uzamsal algılayıcı görsel ipuçları ve yinelemeli çıkarım yoluyla planlama üretiyor ve nihayetinde yayılma modeliyle tam vücut hareket dizilerine dönüştürülerek karakterin hareketini sağlıyor. 200 test sahnesinden oluşan bir navigasyon benchmark'ında, basit yollar, engellerden kaçınma ve dinamik yürüyüşler olmak üzere üç zorluk seviyesinde, VGHuman, NaVILA, NaVid, Uni-NaVid gibi en güçlü temel modellere kıyasla görev başarı oranlarında yaklaşık 30 puan daha yüksek sonuçlar verdi ve çarpışma oranı eşit veya daha düşük kaldı. Çerçeve ayrıca koşma, zıplama ve diğer birçok hareket tarzını destekliyor ve ardışık çoklu hedeflere ulaşmak için uzun mesafeli planlama sağlıyor. Kod ve modelin açık kaynak haline getirilmesi planlanıyor; GitHub deposu zaten oluşturuldu. (Kaynak: BlockBeats)