पाँच विश्वविद्यालयों की टीम डिजिटल मानवों के लिए विजुअल-गाइडेड 3D नेविगेशन फ्रेमवर्क विकसित करती है

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
पीकिंग विश्वविद्यालय, कार्नेगी मेलन विश्वविद्यालय, टोंगजी विश्वविद्यालय, यूसीएलए और मिशिगन विश्वविद्यालय की एक संयुक्त टीम ने VGHuman विकसित किया है, एक दृश्य-निर्देशित AI फ्रेमवर्क जो डिजिटल मानवों को 3D परिवेशों में नेविगेट करने में सक्षम बनाता है। 200 परीक्षण मामलों में, इस प्रणाली ने प्रमुख आधारों की तुलना में कार्य सफलता दर में 30 प्रतिशत बढ़ोतरी हासिल की। यह प्रोजेक्ट उभरते डिजिटल संपत्ति नियमन के लिए एक पालन ढांचा बनाने के समकालीन प्रयासों के साथ संगत है।

ME News के अनुसार, 14 अप्रैल (UTC+8) को, 1M AI News के अनुसार, पीकिंग विश्वविद्यालय, कार्नेगी मेलन विश्वविद्यालय, तोंगजी विश्वविद्यालय, कैलिफोर्निया विश्वविद्यालय, लॉस एंजिल्स और मिशिगन विश्वविद्यालय की संयुक्त टीम ने arXiv पर VGHuman प्रकाशित किया, जो एक ऐसा एम्बॉडिड AI फ्रेमवर्क है जो डिजिटल एजेंट को केवल दृश्य संवेदन के माध्यम से अपरिचित 3D परिदृश्य में स्वतंत्र रूप से कार्य करने की अनुमति देता है। पहले, डिजिटल एजेंट प्रणालियाँ सामान्यतः पूर्व-निर्धारित स्क्रिप्ट्स या विशेष अवस्था की जानकारी पर निर्भर करती थीं, जबकि VGHuman का उद्देश्य डिजिटल एजेंट को वास्तविक आँखें प्रदान करना है, ताकि वह स्वयं रास्ता देख सके, योजना बना सके और कार्रवाई कर सके। फ्रेमवर्क दो स्तरों में विभाजित है। World Layer, सिंगल-कैमरा वीडियो से सेमेंटिक एनोटेशन और कॉलिजन मेश के साथ 3D गॉसियन सीन का पुनर्निर्माण करता है, जिसका ओब्स्ट्रक्शन-अवेयर डिज़ाइन जटिल बाहरी परिदृश्यों में भी छुपे हुए छोटे वस्तुओं की पहचान करने में सक्षम है। Agent Layer, डिजिटल एजेंट को पहले-दृष्टि RGB-D (रंगीन + गहराई) संवेदन प्रदान करता है, स्थानिक संवेदन दृश्य संकेतों और पुनरावृत्ति निष्कर्षण के माध्यम से योजना बनाता है, और अंततः प्रसारण मॉडल के माध्यम से पूरे शरीर की हरकतों के क्रम में परिवर्तित होता है। 200 परीक्षण परिदृश्यों के नेविगेशन बेंचमार्क में, सरल मार्ग, बाधाओं का पारण, और गतिशील पैदल यात्री—तीन कठिनाई स्तरों में, VGHuman की कार्य सफलता 30 प्रतिशत से अधिक है, NaVILA, NaVid, Uni-NaVid जैसे सबसे मजबूत बेसलाइन्स की तुलना में, और संघट्टन की दर समान है या कम है। फ्रेमवर्क साथ ही दौड़ना, कूदना, और अन्य कई मोशन स्टाइल्स का समर्थन करता है, साथ ही कई सतत् लक्ष्यों को प्राप्त करने के लिए लंबी-दूरी की योजना-बनाने की सुविधा प्रदान करता है। कोड और मॉडल कोओपन-सोर्स किए जाने की योजना है, GitHub रिपॉजिटरी पहले से ही स्थापित है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।