पाँच विश्वविद्यालयों की टीम डिजिटल मानवों के लिए विजुअल-गाइडेड 3D नेविगेशन फ्रेमवर्क विकसित करती है

ME News के अनुसार, 14 अप्रैल (UTC+8) को, 1M AI News के अनुसार, पीकिंग विश्वविद्यालय, कार्नेगी मेलन विश्वविद्यालय, तोंगजी विश्वविद्यालय, कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स और मिशिगन विश्वविद्यालय की संयुक्त टीम ने arXiv पर VGHuman प्रकाशित किया, जो एक ऐसा एम्बॉडिड AI फ्रेमवर्क है जो डिजिटल एजेंट को केवल दृश्य संवेदन के माध्यम से अपरिचित 3D परिदृश्य में स्वतंत्र रूप से कार्य करने की अनुमति देता है। पहले, डिजिटल एजेंट प्रणालियाँ सामान्यतः पूर्व-निर्धारित स्क्रिप्ट्स या विशेष अवस्था की जानकारी पर निर्भर करती थीं, जबकि VGHuman का उद्देश्य डिजिटल एजेंट को वास्तविक आँखें प्रदान करना है, ताकि वह स्वयं रास्ता देख सके, योजना बना सके और कार्रवाई कर सके। फ्रेमवर्क दो स्तरों में विभाजित है। World Layer, सिंगल-कैमरा वीडियो से सेमेंटिक एनोटेशन और कॉलिजन मेश के साथ 3D गॉसियन सीन का पुनर्निर्माण करता है, जिसका ओब्स्ट्रक्शन-अवेयर डिज़ाइन जटिल बाहरी परिदृश्यों में भी छुपे हुए छोटे वस्तुओं की पहचान करने में सक्षम है। Agent Layer, डिजिटल एजेंट को पहले-दृष्टि RGB-D (रंगीन + गहराई) संवेदन प्रदान करता है, स्थानिक संवेदन दृश्य संकेतों और पुनरावृत्ति निष्कर्षण के माध्यम से योजना बनाता है, और अंततः प्रसारण मॉडल के माध्यम से पूरे शरीर की हरकतों के क्रम में परिवर्तित होता है। 200 परीक्षण परिदृश्यों के नेविगेशन बेंचमार्क में, सरल मार्ग, बाधाओं का पारण, और गतिशील पैदल यात्री—तीन कठिनाई स्तरों में, VGHuman की कार्य सफलता 30 प्रतिशत से अधिक है, NaVILA, NaVid, Uni-NaVid जैसे सबसे मजबूत बेसलाइन्स की तुलना में, और संघट्टन की दर समान है या कम है। फ्रेमवर्क साथ ही दौड़ना, कूदना, और अन्य कई मोशन स्टाइल्स का समर्थन करता है, साथ ही कई सतत् लक्ष्यों को प्राप्त करने के लिए लंबी-दूरी की योजना-बनाने की सुविधा प्रदान करता है। कोड और मॉडल कोओपन-सोर्स किए जाने की योजना है, GitHub रिपॉजिटरी पहले से ही स्थापित है। (स्रोत: BlockBeats)