AI स्टार्टअप Decart ने नई पीढ़ी के वर्ल्ड मॉडल Oasis 3 का लॉन्च किया है, जो ऑटोनॉमस ड्राइविंग सिमुलेशन पर ध्यान केंद्रित करता है। कंपनी पहले दुर्लभ ड्राइविंग स्थितियों के लिए बड़े पैमाने पर परीक्षण की आवश्यकता वाली ऑटोनॉमस ड्राइविंग कंपनियों की सेवा करना चाहती है, और फिर रोबोटिक्स और अन्य फिजिकल AI अनुप्रयोगों में विस्तार करेगी, जबकि लॉन्च के साथ ही API उपलब्ध कराकर डेवलपर्स को वर्ल्ड मॉडल के आसपास उत्पाद बनाने के लिए आकर्षित करेगी।
Autonomous driving and developers are open
डीकार्ट के सह-संस्थापक और सीईओ डीन लाइटर्सडॉर्फ ने कहा कि कंपनी Oasis 3 को केवल एक प्रदर्शन-आधारित शोध प्रोजेक्ट के बजाय एक प्रोग्रामेबल वर्ल्ड मॉडल प्लेटफॉर्म बनाना चाहती है। कंपनी के अनुसार, वर्तमान में 10 लाख से अधिक डेवलपर्स इसके उपयोगकर्ता हैं, जिनमें से कई पहले ही इसके रियल-टाइम वीडियो मॉडल Lucy के आधार पर ई-कॉमर्स और स्ट्रीमिंग संबंधी उत्पाद विकसित कर चुके हैं।
Oasis 3 इस आधार मॉडल पर बनाया गया है और Decart की भौतिक AI की ओर आगे बढ़ने का प्रतिनिधित्व करता है। कंपनी के अनुसार, उत्पाद की कीमत सेकंड के आधार पर होती है, जिसका मानक मूल्य 0.02 डॉलर प्रति सेकंड है, और उद्यम ग्राहकों के लिए मूल्य विशिष्ट उपयोग के आधार पर निर्धारित किया जाता है।

मुख्य रूप से लंबे समय तक उत्पादन और वास्तविक चित्रण पर ध्यान केंद्रित
डीकार्ट का मानना है कि Oasis 3 की मुख्य विशेषता चित्रण की वास्तविकता और निरंतर उत्पादन क्षमता है। यह मॉडल ऑटोनॉमस ड्राइविंग सिस्टम के प्रशिक्षण और परीक्षण के लिए फ्रंटल और दोनों ओर के दृश्य सहित बहु-कैमरा ड्राइविंग परिदृश्य उत्पन्न कर सकता है। अन्य उत्पादों के विपरीत जो केवल सीमित प्रदर्शन प्रदान करते हैं, Oasis 3 विकासकों को अधिक एज केस कवर करने के लिए स्थितियों का निरंतर उत्पादन करने की अनुमति देता है।
कंपनी इस क्षमता को अपने निचले सॉफ्टवेयर स्टैक DOS के कारण ठहराती है। डिकार्ट का कहना है कि यह अनुकूलित सॉफ्टवेयर Nvidia, अमेज़न और गूगल के हार्डवेयर पर मॉडल को अधिक कुशलता से चलाने की अनुमति देता है, जिससे निष्कर्षण लागत में कमी आती है। लाइटर्सडॉर्फ का कहना है कि सॉफ्टवेयर और हार्डवेयर के एकीकृत अनुकूलन के कारण, कंपनी की संचालन लागत उद्योग के अन्य प्रतियोगियों से एक दशमलव शक्ति से अधिक कम हो सकती है।
प्रतिस्पर्धा बढ़ रही है, फंडिंग के बाद त्वरित लागू किया जा रहा है
पिछले एक वर्ष में वर्ल्ड मॉडल वर्ग में स्पष्ट रूप से रुचि बढ़ी है। पहले, गूगल ने Genie 3 रिसर्च प्रीव्यू जारी किया, ली फेईफेई द्वारा स्थापित World Labs ने व्यावसायिक परिदृश्यों के लिए Marble लॉन्च किया, और Luma और Runway जैसी वीडियो जनरेशन कंपनियाँ भी भौतिक जागरूकता वाले वीडियो मॉडल को वर्ल्ड मॉडल दिशा में विस्तारित कर रही हैं।
Oasis 3 के लॉन्च से कुछ सप्ताह पहले, दो साल पुरानी कंपनी Decart ने 3 बिलियन डॉलर का फंडिंग राउंड पूरा किया, जिससे इसका आकलन लगभग 40 बिलियन डॉलर हो गया। कंपनी का कहना है कि इस फंडिंग राउंड में ई-कॉमर्स, लाइव स्ट्रीमिंग और फिजिकल AI से संबंधित मांग में तेजी से वृद्धि के कारण निवेश हुआ। टोयोटा, Adobe, eBay और मौजूदा निवेशक Nvidia ने इस राउंड में निवेश किया, जो संभवतः इसके संभावित ग्राहक भी हो सकते हैं।
लंबे समय तक चलने के बाद भी विकृत हो जाता है

हालांकि, Oasis 3 अभी भी स्पष्ट सीमाओं का सामना कर रहा है। TechCrunch के वास्तविक परीक्षण के अनुसार, मॉडल प्रॉम्प्ट के अनुसार प्रारंभिक दृश्य अच्छी तरह से उत्पन्न कर सकता है, लेकिन जब उपयोगकर्ता वातावरण में लगातार आगे बढ़ता है, तो दृश्य विषय धीरे-धीरे कमजोर हो जाता है। उदाहरण के लिए, प्रारंभ में न्यूयॉर्क की सड़क का दृश्य उत्पन्न होता है, लेकिन जब आगे बढ़ते हैं, तो वातावरण धीरे-धीरे सामान्य पश्चिमी शहरी सड़कों में बदल जाता है।
टेस्ट ने यह भी दर्शाया कि मॉडल स्थानीय सततता पर स्थिर रूप से प्रदर्शन नहीं करता है। जब उपयोगकर्ता मुड़कर पिछले क्रॉसिंग पर लौटता है, तो मूल दृश्य समाप्त हो सकता है और नए वातावरण द्वारा प्रतिस्थापित हो सकता है। वाहन नियंत्रण प्रतिक्रिया भी पर्याप्त रूप से स्थिर नहीं है, और कभी-कभी गति की दिशा उपयोगकर्ता के ऑपरेशन से विचलित हो जाती है।
फिजिकल कंसिस्टेंसी अभी भी एक चुनौती है
एक अन्य समस्या टक्कर भौतिकी है। परीक्षण में, वाहन कभी-कभी अन्य वाहनों के माध्यम से सीधे गुजर जाते हैं, जिससे स्पष्ट होता है कि मॉडल वास्तविक भौतिक संबंधों को स्थिर रूप से अनुकरण नहीं कर पा रहा है। लाइटर्सडॉर्फ इसे वर्तमान में एक महत्वपूर्ण अनुसंधान समस्या कहते हैं और बताते हैं कि प्रशिक्षण डेटा में "सामान्य ड्राइविंग" की तुलना में दुर्घटना परिदृश्य कम होना भी एक कारण है।
उन्होंने स्पष्ट किया कि Oasis 3 एक आत्म-पुनरावर्ती तरीके से फ्रेम दर फ्रेम सामग्री उत्पन्न करता है, जहां प्रत्येक फ्रेम अगले फ्रेम को निर्धारित करने के लिए पिछले परिणामों का हवाला देता है, जिससे कैलकुलेशन क्षमता और संदर्भ लंबाई की बहुत अधिक आवश्यकता होती है। उनके अनुसार, प्रत्येक फ्रेम लगभग 8000 टोकन के बराबर होता है, और प्रति सेकंड कई दर्जन फ्रेम की उत्पादन गति पर, संदर्भ विंडो जल्द ही भर जाएगी। कंपनी वर्तमान में लंबे संदर्भ और अधिक कुशल स्मृति संपीड़न विधियों पर काम कर रही है।
लाइटर्सडॉर्फ का अनुमान है कि अगले संस्करण में सुसंगठन समस्याओं को आंशिक रूप से सुधारा जा सकता है। उस समय, उपयोगकर्ता एकल चित्र के बजाय परिदृश्य वीडियो के आधार पर दुनिया बना सकेंगे।
