Beş üniversiteli ekip, dijital insanlar için görsel rehberli 3D navigasyon çerçevesi geliştirdi

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Pekin Üniversitesi, Carnegie Mellon Üniversitesi, Tongji Üniversitesi, UCLA ve Michigan Üniversitesi'nden oluşan ortak bir ekip, dijital insanların 3D ortamlarda gezinmesini sağlayan VGHuman adlı bir görsel yönlü yapay zeka çerçevesi geliştirdi. Sistem, 200 test durumunda önde gelen temel modellere göre görev başarı oranlarında %30'luk bir iyileşme sağladı. Proje, ortaya çıkan dijital varlık düzenlemeleri için uyum çerçevesi oluşturma çabalarıyla uyumludur.

ME Haberleri'ne göre, 14 Nisan (UTC+8) tarihinde 1M AI News'in izlemesine göre, Pekin Üniversitesi, Carnegie Mellon Üniversitesi, Tongji Üniversitesi, California Üniversitesi Los Angeles ve Michigan Üniversitesi ortak ekibi, arXiv üzerinde VGHuman'ı yayınladı; bu, dijital bir varlığın yalnızca görsel algı ile yabancı 3D ortamlarda kendi kendine hareket etmesini sağlayan bir vücutlu AI çerçevesidir. Dijital varlık sistemleri daha önce genellikle önceden tanımlanmış senaryolar veya özel durum bilgilerine dayanıyordu; VGHuman, dijital varlıklara gerçek bir göz vererek, kendi yolunu görmesini, planlamasını ve hareket etmesini sağlamayı amaçlıyor. Çerçeve iki katmandan oluşuyor. World Layer, tek gözlü videodan semantik etiketler ve çarpışma ağları ile birlikte 3D Gauss sahnesi oluşturuyor; engel algılamalı tasarımı, karmaşık açık hava ortamlarında engellenen küçük nesneleri hâlâ tanımlamasını sağlıyor. Agent Layer, dijital varlığa birinci kişilik RGB-D (renkli + derinlik) algılaması sağlıyor; uzamsal algılayıcı görsel ipuçları ve yinelemeli çıkarım yoluyla planlama üretiyor ve nihayetinde yayılma modeliyle tam vücut hareket dizilerine dönüştürülerek karakterin hareketini sağlıyor. 200 test sahnesinden oluşan bir navigasyon benchmark'ında, basit yollar, engellerden kaçınma ve dinamik yürüyüşler olmak üzere üç zorluk seviyesinde, VGHuman, NaVILA, NaVid, Uni-NaVid gibi en güçlü temel modellere kıyasla görev başarı oranlarında yaklaşık 30 puan daha yüksek sonuçlar verdi ve çarpışma oranı eşit veya daha düşük kaldı. Çerçeve ayrıca koşma, zıplama ve diğer birçok hareket tarzını destekliyor ve ardışık çoklu hedeflere ulaşmak için uzun mesafeli planlama sağlıyor. Kod ve modelin açık kaynak haline getirilmesi planlanıyor; GitHub deposu zaten oluşturuldu. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.