डीकार्ट ने ऑटोनॉमस ड्राइविंग सिमुलेशन के लिए वर्ल्ड मॉडल ओएसिस 3 लॉन्च किया

CoinDesk द्वारा रिपोर्ट किया गया:

AI स्टार्टअप Decart ने नई पीढ़ी के वर्ल्ड मॉडल Oasis 3 का लॉन्च किया है, जो ऑटोनॉमस ड्राइविंग सिमुलेशन पर ध्यान केंद्रित करता है। कंपनी पहले दुर्लभ ड्राइविंग स्थितियों के लिए बड़े पैमाने पर परीक्षण की आवश्यकता वाली ऑटोनॉमस ड्राइविंग कंपनियों की सेवा करना चाहती है, और फिर रोबोटिक्स और अन्य फिजिकल AI अनुप्रयोगों में विस्तार करेगी, जबकि लॉन्च के साथ ही API उपलब्ध कराकर डेवलपर्स को वर्ल्ड मॉडल के आसपास उत्पाद बनाने के लिए आकर्षित करेगी।

Autonomous driving and developers are open

डीकार्ट के सह-संस्थापक और सीईओ डीन लाइटर्सडॉर्फ ने कहा कि कंपनी Oasis 3 को केवल एक प्रदर्शन-आधारित शोध प्रोजेक्ट के बजाय एक प्रोग्रामेबल वर्ल्ड मॉडल प्लेटफॉर्म बनाना चाहती है। कंपनी के अनुसार, वर्तमान में 10 लाख से अधिक डेवलपर्स इसके उपयोगकर्ता हैं, जिनमें से कई पहले ही इसके रियल-टाइम वीडियो मॉडल Lucy के आधार पर ई-कॉमर्स और स्ट्रीमिंग संबंधी उत्पाद विकसित कर चुके हैं।

Oasis 3 इस आधार मॉडल पर बनाया गया है और Decart की भौतिक AI की ओर आगे बढ़ने का प्रतिनिधित्व करता है। कंपनी के अनुसार, उत्पाद की कीमत सेकंड के आधार पर होती है, जिसका मानक मूल्य 0.02 डॉलर प्रति सेकंड है, और उद्यम ग्राहकों के लिए मूल्य विशिष्ट उपयोग के आधार पर निर्धारित किया जाता है।

मुख्य रूप से लंबे समय तक उत्पादन और वास्तविक चित्रण पर ध्यान केंद्रित

डीकार्ट का मानना है कि Oasis 3 की मुख्य विशेषता चित्रण की वास्तविकता और निरंतर उत्पादन क्षमता है। यह मॉडल ऑटोनॉमस ड्राइविंग सिस्टम के प्रशिक्षण और परीक्षण के लिए फ्रंटल और दोनों ओर के दृश्य सहित बहु-कैमरा ड्राइविंग परिदृश्य उत्पन्न कर सकता है। अन्य उत्पादों के विपरीत जो केवल सीमित प्रदर्शन प्रदान करते हैं, Oasis 3 विकासकों को अधिक एज केस कवर करने के लिए स्थितियों का निरंतर उत्पादन करने की अनुमति देता है।

कंपनी इस क्षमता को अपने निचले सॉफ्टवेयर स्टैक DOS के कारण ठहराती है। डिकार्ट का कहना है कि यह अनुकूलित सॉफ्टवेयर Nvidia, अमेज़न और गूगल के हार्डवेयर पर मॉडल को अधिक कुशलता से चलाने की अनुमति देता है, जिससे निष्कर्षण लागत में कमी आती है। लाइटर्सडॉर्फ का कहना है कि सॉफ्टवेयर और हार्डवेयर के एकीकृत अनुकूलन के कारण, कंपनी की संचालन लागत उद्योग के अन्य प्रतियोगियों से एक दशमलव शक्ति से अधिक कम हो सकती है।

प्रतिस्पर्धा बढ़ रही है, फंडिंग के बाद त्वरित लागू किया जा रहा है

पिछले एक वर्ष में वर्ल्ड मॉडल वर्ग में स्पष्ट रूप से रुचि बढ़ी है। पहले, गूगल ने Genie 3 रिसर्च प्रीव्यू जारी किया, ली फेईफेई द्वारा स्थापित World Labs ने व्यावसायिक परिदृश्यों के लिए Marble लॉन्च किया, और Luma और Runway जैसी वीडियो जनरेशन कंपनियाँ भी भौतिक जागरूकता वाले वीडियो मॉडल को वर्ल्ड मॉडल दिशा में विस्तारित कर रही हैं।

Oasis 3 के लॉन्च से कुछ सप्ताह पहले, दो साल पुरानी कंपनी Decart ने 3 बिलियन डॉलर का फंडिंग राउंड पूरा किया, जिससे इसका आकलन लगभग 40 बिलियन डॉलर हो गया। कंपनी का कहना है कि इस फंडिंग राउंड में ई-कॉमर्स, लाइव स्ट्रीमिंग और फिजिकल AI से संबंधित मांग में तेजी से वृद्धि के कारण निवेश हुआ। टोयोटा, Adobe, eBay और मौजूदा निवेशक Nvidia ने इस राउंड में निवेश किया, जो संभवतः इसके संभावित ग्राहक भी हो सकते हैं।

लंबे समय तक चलने के बाद भी विकृत हो जाता है

हालांकि, Oasis 3 अभी भी स्पष्ट सीमाओं का सामना कर रहा है। TechCrunch के वास्तविक परीक्षण के अनुसार, मॉडल प्रॉम्प्ट के अनुसार प्रारंभिक दृश्य अच्छी तरह से उत्पन्न कर सकता है, लेकिन जब उपयोगकर्ता वातावरण में लगातार आगे बढ़ता है, तो दृश्य विषय धीरे-धीरे कमजोर हो जाता है। उदाहरण के लिए, प्रारंभ में न्यूयॉर्क की सड़क का दृश्य उत्पन्न होता है, लेकिन जब आगे बढ़ते हैं, तो वातावरण धीरे-धीरे सामान्य पश्चिमी शहरी सड़कों में बदल जाता है।

टेस्ट ने यह भी दर्शाया कि मॉडल स्थानीय सततता पर स्थिर रूप से प्रदर्शन नहीं करता है। जब उपयोगकर्ता मुड़कर पिछले क्रॉसिंग पर लौटता है, तो मूल दृश्य समाप्त हो सकता है और नए वातावरण द्वारा प्रतिस्थापित हो सकता है। वाहन नियंत्रण प्रतिक्रिया भी पर्याप्त रूप से स्थिर नहीं है, और कभी-कभी गति की दिशा उपयोगकर्ता के ऑपरेशन से विचलित हो जाती है।

फिजिकल कंसिस्टेंसी अभी भी एक चुनौती है

एक अन्य समस्या टक्कर भौतिकी है। परीक्षण में, वाहन कभी-कभी अन्य वाहनों के माध्यम से सीधे गुजर जाते हैं, जिससे स्पष्ट होता है कि मॉडल वास्तविक भौतिक संबंधों को स्थिर रूप से अनुकरण नहीं कर पा रहा है। लाइटर्सडॉर्फ इसे वर्तमान में एक महत्वपूर्ण अनुसंधान समस्या कहते हैं और बताते हैं कि प्रशिक्षण डेटा में "सामान्य ड्राइविंग" की तुलना में दुर्घटना परिदृश्य कम होना भी एक कारण है।

उन्होंने स्पष्ट किया कि Oasis 3 एक आत्म-पुनरावर्ती तरीके से फ्रेम दर फ्रेम सामग्री उत्पन्न करता है, जहां प्रत्येक फ्रेम अगले फ्रेम को निर्धारित करने के लिए पिछले परिणामों का हवाला देता है, जिससे कैलकुलेशन क्षमता और संदर्भ लंबाई की बहुत अधिक आवश्यकता होती है। उनके अनुसार, प्रत्येक फ्रेम लगभग 8000 टोकन के बराबर होता है, और प्रति सेकंड कई दर्जन फ्रेम की उत्पादन गति पर, संदर्भ विंडो जल्द ही भर जाएगी। कंपनी वर्तमान में लंबे संदर्भ और अधिक कुशल स्मृति संपीड़न विधियों पर काम कर रही है।

लाइटर्सडॉर्फ का अनुमान है कि अगले संस्करण में सुसंगठन समस्याओं को आंशिक रूप से सुधारा जा सकता है। उस समय, उपयोगकर्ता एकल चित्र के बजाय परिदृश्य वीडियो के आधार पर दुनिया बना सकेंगे।