लेख शरीरिक बुद्धिमत्ता के क्षेत्र में विश्व मॉडल के विकास के मार्ग पर चर्चा करता है। वर्तमान में दो रास्ते मौजूद हैं: सिलिकॉन वैली का "विकल्पवादी" दृष्टिकोण WAM के साथ VLA को पूरी तरह से बदलने का पीछा करता है, जबकि घरेलू प्रमुख "एकीकरणवादी" दृष्टिकोण विश्व मॉडल को VLA की क्षमता का पूरक मानता है। लेख बताता है कि विश्व मॉडल के सामने तीन बुलबुले हैं—परिभाषा का सामान्यीकरण, उच्च कंप्यूटेशनल बाधाएँ, और व्यावहारिक लागू करने में कठिनाइयाँ। लेख का मानना है कि वास्तविक विश्व मॉडल को वास्तविक व्यवसाय चक्र में समाहित होना चाहिए, ताकि मशीनें भौतिक दुनिया में कार्य कर सकें, केवल चित्रों की वास्तविकता की प्राप्ति पर ध्यान केंद्रित करने के बजाय।

लेखक, स्रोत: एप्रियोरी लैब

VLA से WAM तक, एक अतिरंजित क्रांति और अवहेलित विकास।

पिछले छह महीनों में, एम्बॉडिड इंटेलिजेंस के क्षेत्र में दो सबसे बड़ी चर्चा की लहरें आईं। एक स्क्रीन से संबंधित थी: Sora से लेकर विभिन्न वीडियो जनरेशन मॉडल तक निरंतर अपनी क्षमताएँ दिखाते रहे, एक पानी के गिलास को उलटने का विस्तार से प्रवाह, और सतत स्थान में मानव गतिविधियाँ, “AI द्वारा वास्तविकता का पुनर्निर्माण” की कहानी को शीर्ष पर पहुँचा दिया, “वर्ल्ड मॉडल आ गया है” की चीखें लगातार गूँजती रहीं। दूसरी मूर्ति से संबंधित थी: NVIDIA के मुख्य शोध वैज्ञानिक Jim Fan ने एक Meme चित्र प्रकाशित किया, जिसमें WAM (World Action Model) VLA (Vision-Language-Action Model) के समाधि के सामने खड़ा है, और घोषणा की कि “VLA मर चुका है, वर्ल्ड मॉडल की जय हो”, जिससे सीधे रास्ते के विवाद को सामने ला दिया। (इस लेख में केवल एम्बॉडिड इंटेलिजेंस के वर्ल्ड मॉडल पर चर्चा की जा रही है)

दोनों महोत्सव एक ही केंद्रीय शब्द को साझा करते हैं: विश्व मॉडल।

लेकिन विचित्र बात यह है कि एम्बॉडिड इंटेलिजेंस के क्षेत्र में जितने अधिक लोग इसकी चर्चा करते हैं, उतना ही इसका चेहरा अस्पष्ट होता जाता है; कुछ लोग वास्तविक वीडियो उत्पन्न करने को वर्ल्ड मॉडल कहते हैं, कुछ रोबोटिक एक्शन प्रीव्यू को वर्ल्ड मॉडल कहते हैं, और कुछ ऑटोनॉमस ड्राइविंग सिमुलेशन वातावरण को भी वर्ल्ड मॉडल कहते हैं। एक ही अवधारणा के तहत, पूरी तरह से अलग तकनीकी लक्ष्य और व्यावसायिक मांगें शामिल हैं।

वर्तमान में विश्व मॉडल का सबसे बड़ा खतरा कभी “अस्पष्ट परिभाषा” नहीं है, बल्कि यह है कि सभी लोग इसके सबसे आसानी से प्रदर्शित और सबसे आसानी से प्रचार के बिंदु वाले पहलू को लेकर इसकी पूरी मूल्यांकन कर रहे हैं। जब “दुनिया बनाने” की दिखावट, “दुनिया का उपयोग करने” की मूलभूत बात को धुंधला कर देती है, तो विश्व मॉडल अपने वास्तविक गंतव्य—फिजिकल AI के वास्तविक भौतिक परिदृश्य—से दूर हो रहा है, जिसे सबसे अच्छी कहानी सुनाने वाले लोग ले जा रहे हैं।

वर्ल्ड मॉडल को निश्चित रूप से “दुनिया बनाने” की क्षमता की आवश्यकता होती है। उन आकर्षक जनरेटिव डेमो के बिना, यह इतनी तेजी से जनता और पूंजी के दृष्टिकोण में नहीं आ सकता था। लेकिन Physical AI उद्योग के लिए, एक दुनिया बनाना कभी समस्या की शुरुआत ही होती है। दुनिया को अंततः नियंत्रित, सत्यापित और सुधारा जाना चाहिए, अंततः यह मशीन की कार्रवाई से पहले का प्रीव्यू स्पेस, निर्णय का आधार बन जाए। वीडियो जनरेशन वर्ल्ड मॉडल के दरवाजे को खोल सकता है, लेकिन इसे वास्तविक भौतिक दुनिया तक पहुंचने का पूरा मार्ग तय करने में सक्षम नहीं हो सकता।

हमें नए अवधारणाओं और नए कथानकों की कभी कमी नहीं होती, शरीरिक बुद्धिमत्ता अपना सामान्य मार्ग अवश्य बनाएगी। उस समय, इस मार्ग को VLA कहा जाए, WAM कहा जाए, या कोई अन्य नाम दिया जाए, शायद यह महत्वपूर्ण नहीं रहेगा।

After all, it has become embedded in our lives.

वर्ल्ड मॉडल पूरी तरह से "जनरेटेड इमेज" के बराबर नहीं हैं

क्या आप सोरा को याद करते हैं?

जब OpenAI ने Sora को लॉन्च किया, तो रिपोर्ट का शीर्षक "Video generation models as world simulators" था, जिसमें यह घोषणा की गई कि वीडियो जनरेशन मॉडल "भौतिक दुनिया के लिए सार्वभौमिक सिमुलेटर" तक पहुँचने का एक संभावित मार्ग हो सकते हैं। Sora द्वारा उस समय प्रदर्शित लंबे वीडियो में, कैमरा चलन, स्थानीय 3D सुसंगतता और वस्तु स्थिति के संरक्षण की क्षमता ने जनता को पहली बार स्पष्ट रूप से महसूस कराया कि AI वास्तव में "एक दुनिया बनाना" सीख रहा है। पाठ्य और चित्रों की तुलना में, वीडियो मानव के "दुनिया" के प्रति प्राकृतिक समझ के साथ प्राकृतिक रूप से मेल खाता है — इसमें समय, स्थान, गति और निरंतर परिवर्तन होता है, जिससे लोगों को यह भ्रम होता है कि मॉडल ने भौतिक नियमों को समझ लिया है।

ये क्षमताएँ प्रेस कॉन्फ्रेंस में प्रदर्शित करने के लिए स्वाभाविक रूप से उपयुक्त हैं और निवेशकों और मीडिया का ध्यान आकर्षित करने में सबसे आसान हैं। धीरे-धीरे, "वीडियो जनरेशन = वर्ल्ड मॉडल" बहुत से लोगों के लिए एक डिफ़ॉल्ट जागरूकता का बिंदु बन गया।

यह निश्चित रूप से गलत नहीं है। डिजिटल-नेटिव स्थितियों में, वीडियो जनरेशन रास्ते अपने आप में कुशल समाधान हैं, और इनमें से कई यूनिकॉर्न कंपनियाँ पहले ही उभर चुकी हैं। उनके उत्पाद गेमिंग उद्योग में रियल-टाइम डायनामिक सीन बनाने के लिए उपयोग किए जा सकते हैं, जिससे आर्टिस्टिक लागत कम होती है और खिलाड़ियों की स्वतंत्रता बढ़ती है; एयरोस्पेस, हाई-एंड मैनुफैक्चरिंग जैसे उच्च परीक्षण-त्रुटि लागत वाले क्षेत्रों में, इसका उपयोग परीक्षण सीमाओं को विस्तारित करने और सिमुलेशन सीन को समृद्ध करने के लिए किया जा सकता है, जिससे स्पष्ट व्यावसायिक मूल्य प्राप्त होता है। इस समय बनाया गया “विश्व” केवल दर्शकों के लिए दृश्य नहीं है, बल्कि एक इंटरएक्टिव, परीक्षण-त्रुटि संभव परिकल्पना परिवेश है।

वास्तविक भ्रम तब होता है जब अंतर्विषयी होता है, जब विश्व मॉडल शरीरिक बुद्धिमत्ता से टकराता है, तो बहुत से लोग मान लेते हैं कि यदि मॉडल एक निरंतर और वास्तविक डिजिटल दुनिया उत्पन्न कर सकता है, तो इसका मतलब है कि इसने भौतिक दुनिया की समझ, भविष्यवाणी और कार्रवाई की क्षमता प्राप्त कर ली है।

बीजिंग ज़ह्युआन आर्टिफिशियल इंटेलिजेंस रिसर्च इंस्टीट्यूट के डायरेक्टर वांग ज़ह्युआन का इस पर निर्णय बहुत सटीक है: वर्तमान में विश्व मॉडल के प्रतिनिधि के रूप में व्यापक रूप से मानी जाने वाली वीडियो जनरेशन तकनीक, मूल रूप से पिक्सेल-स्तरीय विश्व अनुकरण है। "वीडियो जनरेशन मॉडल एक समूह के साथ पिग्स को आकाश में हवाईजहाज के साथ उड़ते हुए जनरेट कर सकता है, क्योंकि इसके प्रशिक्षण डेटा में कई वैज्ञानिक कल्पना फिल्मों की सामग्री शामिल है, और इसका लक्ष्य कभी भी वास्तविक भौतिक दुनिया के नियमों को पुनः प्राप्त करना नहीं है।"

एक क्लासिक शरीरिक परिदृश्य पर्याप्त अंतर को समझाता है: कप पकड़ना। मॉडल विभिन्न दृष्टिकोणों से एक समान दिखने वाले कप उत्पन्न कर सकता है, जो दृश्य समानता है, और यह वह है जो यह वीडियो डेटा से सीख सकता है; लेकिन हाथ बढ़ाकर स्पर्श करने पर, घर्षण कितना होगा? सामग्री संबंधित पकड़ के बल को सहन कर सकती है? कप मेज पर गिरता है, क्योंकि मॉडल याद रखता है कि "कप आमतौर पर मेज पर होते हैं", या क्या यह गुरुत्वाकर्षण, समर्थन बल और संपर्क सीमाओं को वास्तव में समझता है? जटिल यांत्रिक प्रतिक्रियाएँ, संपर्क के बाद की स्थिति में परिवर्तन, और वास्तविक भौतिक कानूनों के कारण-प्रभाव सीमाएँ, कोई भी जनरेटेड वीडियो कवर नहीं कर सकता। जब एक कार को पार्श्व दिशा में चलते हुए जनरेट किया जाता है, और इसे बिना सत्यापन के स्वयंचालित ड्राइविंग की प्रशिक्षण श्रृंखला में डाल दिया जाता है, तो वास्तविक भौतिक दुनिया अवश्य ही कठोर प्रतिक्रिया देगी।

अर्थात, वीडियो जनरेशन एक विश्व मॉडल का एक रूप है, जो कई परिदृश्यों में लागू हो चुका है, लेकिन यह न तो एम्बॉडिड इंटेलिजेंस का विश्व मॉडल है, और न ही Physical AI के संदर्भ में केंद्रीय रूप। "दुनिया बनाने" के दृश्य प्रभाव के माध्यम से एम्बॉडिड इंटेलिजेंस के विश्व मॉडल को परिभाषित करना, मूलतः डिजिटल दुनिया के मापदंड का उपयोग करके भौतिक दुनिया की समस्याओं को मापना है।

VLA मर चुका है? वर्ल्ड मॉडल क्रांति नहीं, बल्कि पूरक हैं

"VLA मर चुका है, WAM इसकी जगह ले रहा है" उद्योग के भीतर सबसे लोकप्रिय कहानी है।

पिछले दो वर्षों में, VLA शरीरिक बुद्धिमत्ता का प्रमुख दृष्टिकोण रहा है। यह बड़े भाषा मॉडल के पूर्व-प्रशिक्षण के दृष्टिकोण का अनुसरण करता है, जिसमें विशाल मात्रा में रिमोट ऑपरेशन डेटा के माध्यम से "संवेदन - निर्देश - क्रिया" का मैपिंग स्थापित किया जाता है, ताकि रोबोट अपनी कठिन दोहराव वाली क्रियाओं से आगे बढ़कर प्राकृतिक भाषा को समझने और जटिल कार्यों को विघटित करने लगे। उद्योग के सभी प्रमुख खिलाड़ियों ने VLA को अपनी मुख्य तकनीकी आधारशिला के रूप में अपनाया है।

लेकिन VLA की कमजोरियाँ भी स्पष्ट हैं: यह मूल रूप से अनुकरण सीखने से आए स्मृति और मैपिंग पर निर्भर करता है, जिसमें भौतिक नियमों की नींव की समझ की कमी है; जब भी डेटा में अनदेखे नए परिदृश्य या नए वस्तुओं का सामना होता है, तो इसकी सामान्यीकरण क्षमता तेजी से असफल हो जाती है। जिम फैन द्वारा प्रस्तावित WAM रास्ता, इसी समस्या पर सीधे ध्यान केंद्रित करता है। इसका मुख्य तर्क “वाचनिक समझ” से “भौतिक भविष्यवाणी” की ओर जाना है: यह सीधे कार्रवाई उत्पन्न नहीं करता, बल्कि पहले भविष्य की दुनिया की स्थिति की भविष्यवाणी करता है, फिर कार्रवाई के अनुक्रम को प्रतिलोम रूप से निकालता है, जिससे रोबोट को कार्रवाई से पहले अपने मन में परिणामों का “अभ्यास” करने का मौका मिलता है, जिससे अज्ञात परिदृश्यों के प्रति इसकी अनुकूलन क्षमता में सुधार होता है।

इसलिए "विप्लववाद" तेजी से फैल गया, VLA पुराना प्रारूप है, और विश्व मॉडल ही शरीरिक बुद्धिमत्ता का अगला पीढ़ी का उत्तर है। लेकिन वास्तविक उद्योग के अभ्यास में, मामला "या तो जीवित या मृत" इतना सरल नहीं है।

उद्योग दो स्पष्ट मार्गों में विभाजित हो रहा है, जिनके पीछे अलग-अलग तकनीकी दर्शन और व्यावसायिक आवश्यकताएँ हैं:

एक दृष्टिकोण सिलिकॉन वैली द्वारा नेतृत्व किया जाता है, जो "वैकल्पिक" दृष्टिकोण है। इसमें NVIDIA और Google DeepMind शामिल हैं, जो पर्याप्त कैलकुलेशन क्षमता और डेटा संग्रह के साथ, पूर्ण रूप से नए प्रतिरूप के निर्माण की ओर अग्रसर हैं। NVIDIA ने Cosmos 3 में भाषा, चित्र, वीडियो और क्रिया अनुक्रम को एक ही Physical AI विश्व मॉडल ढांचे में शामिल किया है, जिससे जनरेशन, सिमुलेशन और क्रिया भविष्यवाणी को अलग-अलग मॉड्यूल के रूप में नहीं, बल्कि एकीकृत प्रणाली के रूप में समझा जा सके; Waymo और Google DeepMind के सहयोग से लॉन्च किया गया Waymo World Model, Genie 3 मॉडल क्षमताओं का उपयोग करके, केवल दुर्लभ मौसम, पशुओं के प्रवेश जैसी लॉन्ग-टेल स्थितियों को जनरेट करने के लिए ही सीमित नहीं है, बल्कि इन स्थितियों को ड्राइविंग क्रियाओं, सड़क की संरचना और भाषा सशर्त परिस्थितियों के अधीन करने पर जोर देता है, ताकि स्वयंचालित वाहन प्रणाली की प्रतिक्रिया का परीक्षण किया जा सके।

यह रास्ता सबसे अधिक दावेदारी वाला है और "क्रांतिकारी कथा" के सबसे अधिक अनुकूल है, लेकिन इसकी सीमा बहुत अधिक है, यह शीर्ष दिग्गजों का खेल है।

दूसरा दृष्टिकोण देश में अधिक प्रचलित “एकीकरणवादी” है। अधिकांश खिलाड़ी नए सिरे से शुरू करने के बजाय, विश्व मॉडल को VLA क्षमताओं का पूरक मानकर मौजूदा आर्किटेक्चर में एम्बेड कर देते हैं। 2026 के मई में, Zhi Square ने VLA एम्बोडिमेंट लार्ज मॉडल AlphaBrain लॉन्च किया। इसने मानव दिमाग के “मस्तिष्क-अनुमस्तिष्क-शरीर” के विभाजन के सिद्धांत को अपनाया है, और “तेज-धीमी प्रणाली” के सहयोग से विश्व मॉडल की “प्री-सिमुलेशन” क्षमता को VLA आर्किटेक्चर के भीतर एम्बेड किया है—धीमी प्रणाली पर्यावरणीय स्थिति समझ और उच्च-स्तरीय व्यवहार योजना के लिए जिम्मेदार है, जबकि तेज प्रणाली सूक्ष्म संवेदन और त्वरित प्रतिक्रिया के लिए। Zhi Square के संस्थापक गुओ यानडोंग का मानना है: “विश्व मॉडल और VLA में कोई टकराव नहीं है, ये दोनों एक ही तकनीकी पथ की शाखाएँ हैं। यदि आप अधिक दीर्घकालिक निष्कर्षण कार्य करना चाहते हैं, तो आपको विश्व मॉडल + VLA की आवश्यकता होगी, या विश्व मॉडल और VLA को मिला देना होगा।”

गैलेक्सी जनरल ने भी बहुत आगे बढ़ लिया है; उन्होंने इस साल अप्रैल में LDA-1B मॉडल लॉन्च किया, जो एक समेकित फ्रेमवर्क के भीतर रणनीति सीखने, भौतिक पूर्वानुमान और दृश्य संवेदन को एक साथ करता है, और पहली बार औद्योगिक स्तर के 10 अरब पैरामीटर स्केल पर विश्व मॉडल और क्रिया मॉडल को एकीकृत किया है। संबंधित परिणाम RSS रोबोटिक्स कॉन्फ्रेंस में शामिल किए गए हैं, और मॉडल वेट्स और प्रशिक्षण कोड ओपन सोर्स हैं। वे "VLA चुनें या विश्व मॉडल" पर नहीं फंसते, बल्कि अधिक व्यावहारिक रूप से पूर्वानुमान और क्रिया के लिए एक ही मॉडल का उपयोग करते हैं, ताकि प्रत्येक की ताकत का लाभ उठाया जा सके और कमजोरियों को पूरा किया जा सके।

हमारे दृष्टिकोण से, "विकल्प" और "एकीकरण" में कोई निरपेक्ष सही या गलत नहीं है, बस विभिन्न चरणों के विभिन्न विकल्प हैं। VLA वास्तव में "मरेगा" नहीं, और विश्व मॉडल भी सब कुछ को उलट देने वाली क्रांति नहीं है; यह VLA की सबसे अधिक कमी को पूरा करता है—भौतिक भविष्यवाणी क्षमता। दोनों का अंतिम संबंध अधिक संभावना है कि स्तरबद्ध सहयोग होगा, न कि एक की मृत्यु और दूसरे का जीवन। वास्तविक रूप से मार्ग की जीत को तय करने वाला, कभी भी यह नहीं है कि अवधारणा कितनी नवीन है, बल्कि यह है कि कौन पहले डेटा, सिमुलेशन और वास्तविक मशीन डिप्लॉयमेंट की श्रृंखला को सफलतापूर्वक संचालित कर पाता है, ताकि रोबोट वास्तविक परिदृश्य में प्रवेश कर सकें।

वर्ल्ड मॉडल अभी तक लागू नहीं हुआ है, लेकिन पहले ही इसकी अवधारणा को बढ़ा-चढ़ाकर प्रचार किया जा रहा है

जब अवधारणा की लोकप्रियता तकनीकी लागू करने से आगे निकल जाती है, तो बुलबुला लगभग अनिवार्य उत्पाद होता है। वर्तमान विश्व मॉडल क्षेत्र में, कम से कम तीन ऐसे बुलबुले सामने आ चुके हैं जिनकी ओर सावधानी से ध्यान देना चाहिए।

पहला चरण है बुलबुले की परिभाषा। आज का "विश्व मॉडल" एक ऐसा टोकरी बन गया है जिसमें कुछ भी डाला जा सकता है। यान लेकुन के अनुसार, यह अमूर्त स्तर का विश्व स्थिति भविष्यवाणी है, ली फेईफेई इसे इंटरएक्टिव 3D स्पेस प्रतिनिधित्व के रूप में परिभाषित करते हैं, न्यूडिया इसे फिजिक्स AI जनरेटिव सिमुलेटर के रूप में स्थित करता है, कुछ स्टार्टअप्स वीडियो जनरेशन से भर देते हैं, कुछ पारंपरिक सिमुलेशन इंजन का नाम बदलकर "विश्व मॉडल" कहते हैं। भारत में, विश्व मॉडल में निवेश करने का दावा करने वाली कंपनियों की संख्या दर्जनों हो चुकी है, लेकिन वे सभी संभवतः एक ही चीज की बात नहीं कर रहे हैं। जब कोई प्रौद्योगिकी संकल्पना असीमित रूप से व्याख्या की जा सकती है, तो वह प्रौद्योगिकी मापदंड का महत्व खो देती है। परिभाषा के सामान्यीकरण के पीछे, फंडिंग की आवश्यकता और मार्केटिंग कथाओं का संयुक्त प्रयास है, क्योंकि "विश्व मॉडल" कहना, "वीडियो जनरेशन टूल" या "सिमुलेशन ऑप्टिमाइजेशन समाधान" कहने से हमेशा अधिक मूल्यवान होता है।

दूसरा बुलबुला कैलकुलेशन का है। विश्व मॉडल की प्रमुख प्रशिक्षण राह, विशाल वीडियो डेटा और अत्यधिक कैलकुलेशन पावर पर आधारित है, और यही निश्चित रूप से नविडिया का क्षेत्र है। हुआंग रेन्युन ने GTC कॉन्फ्रेंस में सीधे कहा कि 2027 तक, ब्लैकवेल और रुबिन चिप्स, और उनके द्वारा एम्बॉडीड इंटेलिजेंस मॉडल्स के लिए डिज़ाइन किए गए संबंधित सिस्टम, नविडिया को कम से कम 1 ट्रिलियन डॉलर की आय देंगे। कुछ हद तक, सिलिकॉन वैली के शीर्ष प्लेयर्स द्वारा "फुल-मॉडलिटी जनरल वर्ल्ड मॉडल" राह को बढ़ावा देना, सीधे रूप से नविडिया के "कैलकुलेशन इंफ्रास्ट्रक्चर बेचने" के व्यापारिक तर्क के साथ मेल खाता है। लेकिन इस राह पर निवेश की सीमा, अधिकांश कंपनियों के लिए अनंत है; पहले VLA पर निवेश करने वाली मध्यम टीमें भी इतने पैमाने की सामान्य लागत को सहन करने में समर्थ नहीं हैं, और पूरी तरह से वर्ल्ड मॉडल के क्षेत्र में प्रवेश करना तो और भी मुश्किल है। जब सभी केवल एक ही हाई-कैलकुलेशन-आधारित राह पर चर्चा करते हैं, लेकिन कम से कम कोई भी प्रति-आय का परिकलन नहीं कर पा रहा है, तो यही स्थिति ही बुलबुले का संकेत है।

तीसरा और सबसे घातक बुलबुला वास्तविक दुनिया में उतरने का है। सभी अवधारणात्मक कथाएँ एक ही प्रश्न का उत्तर देती हैं: क्या यह वास्तविक मशीन के प्रदर्शन में सुधार कर सकती है? और वास्तविकता यह है कि प्रतिरूपण से वास्तविकता तक का अंतर, बस इसलिए कि मॉडल का नाम VLA से WAM में बदल गया है, स्वयं समाप्त नहीं हो जाता। वीडियो में एक सूक्ष्म पारगमन, गुरुत्वाकर्षण के विपरीत, या सीमा का अस्पष्ट होना, रोबोट प्रशिक्षण में भौतिकी के गलत अवधारणा में स्थिर हो जाता है; एक ऐसा भविष्यवाणी जो तर्कसंगत लगती है लेकिन भौतिकी के नियमों का उल्लंघन करती है, वह बिना मॉडल के प्रशिक्षण की तुलना में वास्तविक मशीन के लिए अधिक हानिकारक हो सकती है।

एंटी लिंगबो के मुख्य वैज्ञानिक शेन यूजुन ने मूल अंतर को बताया: डिजिटल दुनिया के जनरेटिव मॉडल उच्च-डीपीआई रियलिस्टिक रिजल्ट की ओर जा सकते हैं, धीमे होना कोई समस्या नहीं है; लेकिन भौतिक दुनिया के मॉडल की प्राथमिक आवश्यकता तेज़, स्थिर और सटीक होना है, जिससे वे वास्तविक समय में प्रतिक्रिया दे सकें और कार्रवाई का समर्थन कर सकें। कई टीमें डिजिटल दुनिया में स्थिति को हर बार अधिक वास्तविक बनाने में लगी हुई हैं, लेकिन वास्तविक भौतिक अंतर्क्रिया के डेटा को सबसे कमजोर संसाधन के रूप में नज़रअंदाज़ कर देती हैं। वर्ल्ड मॉडल सिमुलेशन में सुंदर संकेत प्रदान कर सकते हैं, लेकिन जब तक वे कारखाने की उत्पादन लाइन, लॉजिस्टिक्स वेयरहाउस, या खुली सड़कों पर वास्तविक मूल्य साबित नहीं करते, तब तक वे केवल प्रयोगशाला में तकनीकी अन्वेषण ही हैं, उद्योग-स्तरीय बुनियादी ढांचा नहीं।

तो, फिजिकल AI या एम्बॉडीड इंटेलिजेंस के लिए वर्ल्ड मॉडल कैसा होना चाहिए? जवाब प्रेस कॉन्फ्रेंस के डेमो वीडियो में नहीं, बल्कि वास्तविक स्थितियों की आवश्यकताओं में है। इसका मुख्य मूल्यांकन मापदंड कभी “जनरेट किया गया विश्व कितना वास्तविक लगता है” नहीं, बल्कि “क्या यह मशीन को भौतिक दुनिया में बेहतर ढंग से कार्रवाई करने में मदद कर सकता है”, “क्या यह त्रुटि की लागत को कम कर सकता है”, “क्या यह सामान्यीकरण क्षमता में सुधार कर सकता है”, “क्या यह वास्तविक व्यावसायिक समाप्ति चक्र में एम्बेड किया जा सकता है”?

वर्तमान उद्योग के अभ्यास से, सही दिशा में आगे बढ़ रहे खिलाड़ी सभी एक ही काम कर रहे हैं: विश्व मॉडल को "प्रदर्शन-उन्मुख" से "कार्य-उन्मुख" में बदलना। दूसरे शब्दों में, विश्व मॉडल का अंतिम रूप एक स्वतंत्र "उत्पाद" नहीं है, बल्कि विभिन्न भौतिक प्रणालियों में एम्बेडेड एक मूल क्षमता है। यह स्व-चालित वाहन के सिमुलेशन बैकएंड में, रोबोट के एक्शन प्लानिंग मॉड्यूल में, और कारखाने की उत्पादन लाइन के पूर्वानुमान प्रणाली में छिपा हुआ है, जहां यह निरंतर पूर्वानुमान, प्रयास-त्रुटि, और सुधार का कार्य करता है। अधिकांश समय, उपयोगकर्ता इसकी उपस्थिति को महसूस भी नहीं करते।

वही विश्व मॉडल का युग है, बशर्ते कि इसे विश्व मॉडल न कहा जाए।

शरीरिक बुद्धिमत्ता में विश्व मॉडल: दृश्य उत्पादन के आगे एक आगे का रास्ता

वर्ल्ड मॉडल पूरी तरह से "जनरेटेड इमेज" के बराबर नहीं हैं

VLA मर चुका है? वर्ल्ड मॉडल क्रांति नहीं, बल्कि पूरक हैं

वर्ल्ड मॉडल अभी तक लागू नहीं हुआ है, लेकिन पहले ही इसकी अवधारणा को बढ़ा-चढ़ाकर प्रचार किया जा रहा है