कोड से ज्ञान तक: रोबोट दिमाग के विकास पर एक गहन अध्ययन

लेखक: Matt White, Linux Foundation ग्लोबल AI चीफ टेक्नोलॉजी ऑफिसर

संपादित: फेलिक्स, PANews

ह्यूमनॉइड रोबोट

वांग शिंगशिंग (युशु कंपनी के सीईओ) और मैट व्हाइट

कुछ हफ्ते पहले शंघाई में, एक साथ यात्रा करने वाले एक दोस्त (जो बहुत चतुर है, सामान्य रूप से समाचार देखता और चीजों को ध्यान से देखता है, लेकिन रोबोटिक्स के बारे में ज्यादा नहीं जानता) ने रात के खाने के दौरान पूरी यात्रा के दौरान मैंने जिस सवाल की प्रतीक्षा की थी, वह पूछा।

हमने जिन मशीनी कुत्तों को देखा, जो भाग रहे थे, और यूशु के कार्यालय के प्रदर्शन स्टेज पर कंग फू कर रहे मानव रूपी रोबोट, और जिन मैकेनिकल आर्म्स ने कपड़े बुने, वे यह कैसे करते हैं? क्या इन्हें बड़े भाषा मॉडल (LLM) द्वारा चलाया जाता है? यह सब कैसे काम करता है? क्या इनकी गतिविधियों को कोई भाषा मॉडल नियंत्रित कर रहा है?

यह एक बहुत अच्छा प्रश्न है, ईमानदारी से कहूँ तो: कुछ हद तक हाँ, लेकिन वास्तविक कहानी इससे कहीं अधिक दिलचस्प है। आप सोशल मीडिया पर जिन रोबोटों को देखते हैं, वे ChatGPT के धातु के कवच पहने हुए नहीं होते। वे एक तकनीकी स्टैक (बहुस्तरीय AI का सहयोग) चलाते हैं। पिछले तीन वर्षों में इस तकनीकी स्टैक में हुए परिवर्तन पिछले तीस वर्षों से अधिक हैं। भाषा मॉडल इसका एक हिस्सा हैं। दृश्य मॉडल, कार्रवाई मॉडल, व्यवहार वृक्ष, क्लासिक कंट्रोल लूप, और “वर्ल्ड मॉडल” नामक एक उभरती हुई सिस्टम परिवार भी महत्वपूर्ण हिस्से हैं। और “वर्ल्ड मॉडल” संभवतः सभी विकासों में सबसे महत्वपूर्ण है।

यह एक लंबा लेख है, जो शुरुआत से शुरू होगा और धीरे-धीरे प्रत्येक महत्वपूर्ण परिवर्तन को बताएगा, अंत में वर्तमान चरण तक पहुँचेगा: रोबोट अब केवल दुनिया की प्रतिक्रिया दे सकते हैं, बल्कि दुनिया की कल्पना भी कर सकते हैं।

एक: पूर्व LLM युग: जब रोबोट केवल सॉफ्टवेयर थे

दशकों तक, रोबोट बनाने का अर्थ था कि बहुत सारा कोड लिखना, और इनमें से लगभग सभी कोड सीखने की आवश्यकता नहीं थी।

क्लासिक औद्योगिक रोबोट एक टावर जैसी संरचना होते हैं, जो सावधानी से डिज़ाइन किए गए मॉड्यूल्स के स्तरों से बने होते हैं। उदाहरण के लिए, 1990 के दशक में टोयोटा चेसिस को वेल्ड करने वाला नारंगी रोबोटिक बाहु, या 2000 के शुरुआती वर्षों में बोस्टन डायनामिक्स का BigDog।

संवेदन: वीडियो कैमरा फ्रेम को फ़िल्टर करें, किनारों की पहचान करें, और ज्यामितीय मिलान का उपयोग करके वस्तु की स्थिति पहचानें।
स्थिति अनुमान: रोबोट की स्थिति और गति को निर्धारित करने के लिए व्हील एन्कोडर, जायरोस्कोप और त्वरणमापी (सेंसर फ्यूजन) का उपयोग करें।
प्लानिंग: दिए गए लक्ष्य पोज़ के आधार पर, एक ज्ञात मानचित्र में A* या RRT जैसे एल्गोरिथम का उपयोग करके एक अनाघात पथ की गणना करें।
नियंत्रण: सबसे निचले स्तर पर, PID नियंत्रक इस पथ का पालन करने के लिए प्रति सेकंड सैकड़ों या हजारों बार मोटर टॉर्क को समायोजित करता है।

इन स्तरों को अक्सर विभिन्न प्रयोगशालाओं के विभिन्न लोग लिखते हैं और अत्यंत सूक्ष्मता से जोड़ा जाता है। व्यवहार (जैसे “अगर कप लाल है तो उठाएं, अन्यथा प्रतीक्षा करें”) को स्टेट मशीन या बिहेवियर ट्री के रूप में कोड किया जाता है: अर्थात् रोबोट द्वारा क्रमिक रूप से निष्पादित प्रवाह चित्र।

ह्यूमनॉइड रोबोट

इस विधि के लाभ स्पष्ट हैं। यह भविष्यवाणीयोग्य है और सुरक्षा मानकों के अनुरूप है। यही कारण है कि आपकी कार में प्रभावी ABS ब्रेक सिस्टम लगा हुआ है।

दोष भी स्पष्ट हैं। ऐसा रोबोट केवल इंजीनियरों द्वारा पूर्वानुमानित परिदृश्यों में ही अपनी बुद्धिमत्ता का प्रदर्शन कर सकता है। जब इसे नए कारखाने, नए प्रकाश की स्थिति या नए कप के रंग में रखा जाता है, तो यह असफल हो जाता है। इसकी सामान्यीकरण क्षमता लगभग शून्य है।

द्वितीय: मशीन लर्निंग चुपचाप प्रवेश करती है

2010 के दशक में, डीप लर्निंग ने पर्सेप्शन लेयर की समस्याओं को हल करना शुरू कर दिया। उन कन्वोल्यूशनल न्यूरल नेटवर्क (CNN), जिन्होंने ImageNet इमेज क्लासिफिकेशन टास्क में मनुष्यों को हराया, को पुनः प्रशिक्षित किया जा सकता था, ताकि वस्तुओं पर ग्रिप पॉइंट्स का पता लगाया जा सके, कमरे के फर्नीचर को सेगमेंट किया जा सके, या मनुष्यों की पोज़ की पहचान की जा सके। अचानक, टेक्नोलॉजी स्टैक के शीर्ष पर स्थित "पर्सेप्शन" लेयर को मैनुअल रूप से डिज़ाइन करने की आवश्यकता नहीं रही — आप इसे सीधे प्रशिक्षित कर सकते हैं।

इसके बाद, सीखने की प्रक्रिया "नियंत्रण" स्तर तक फैल गई। बर्कले विश्वविद्यालय, डीपमाइंड और ओपनएआई के शोधकर्ताओं ने दिखाया कि पुनर्बलन सीखना (जिसमें रोबोट एजेंट सिमुलेटेड परिवेश में मिलियनों बार प्रयास करते हैं और प्रभावी व्यवहार को मजबूत किया जाता है) आश्चर्यजनक रूप से कुशल चलन, हाथों से वस्तुओं को संचालित करना (ओपनएआई ने 2019 में एक हाथ से क्यूब हल करना एक मील का पत्थर साबित किया), और विभिन्न भूमि के प्रकारों के अनुकूल गति रणनीतियाँ पैदा कर सकता है।

एक अन्य समानांतर अनुसंधान दिशा अनुकरण शिक्षा है, जिसे आमतौर पर व्यवहार क्लोनिंग कहा जाता है: मानव द्वारा रिमोट कंट्रोल किए जाने वाले रोबोट द्वारा किसी कार्य को पूरा करने के लिए सैकड़ों प्रयासों को रिकॉर्ड किया जाता है, और फिर न्यूरल नेटवर्क को रोबोट द्वारा देखे गए परिदृश्य के आधार पर मानव द्वारा क्या कार्रवाई की जाएगी, इसका पूर्वानुमान लगाने के लिए प्रशिक्षित किया जाता है।

इसकी कुंजी यह है: हर सीखा गया रणनीति बहुत संकीर्ण है। एक नेटवर्क को एक लाल ब्लॉक उठाने के लिए प्रशिक्षित करने पर, यह पीले कप को कैसे संभालें, यह नहीं जानता। इसे घास पर चलने के लिए प्रशिक्षित करने पर, यह टाइल्स के फर्श पर गिर जाता है। सामान्यीकरण क्षमता अभी भी एक तत्काल समाधान की आवश्यकता रखती है।

ध्यान देने योग्य बात यह है कि इस अवधि में एक ऐसी बुनियादी ढांचा विकसित हुआ, जो आज भी लगभग सब कुछ को समर्थन देता है: ROS, रोबोट ऑपरेटिंग सिस्टम (पहली बार 2007 नवंबर में जारी किया गया)। ROS, Windows या Linux के अर्थ में ऑपरेटिंग सिस्टम नहीं है, बल्कि एक मिडलवेयर फ्रेमवर्क है, एक सामान्य रोबोट पाइपलाइन सिस्टम। यह "कैमरा नोड", "नेविगेशन नोड", "मैनिपुलेटर कंट्रोलर नोड" और अन्य दर्जनों नोड्स को साझा बस के माध्यम से संदेश प्रकाशित और सदस्यता लेने की अनुमति देता है।

वर्तमान संस्करण ROS2 दुनिया भर के अधिकांश शोध और व्यावसायिक रोबोट्स के नीचे चल रहा है, स्टैनफोर्ड विश्वविद्यालय के प्रयोगशालाओं से लेकर चीन की मानवरूप रोबोट स्टार्टअप कंपनियों तक, कोई अपवाद नहीं। जब लोग रोबोट के "ऑपरेटिंग सिस्टम" की बात करते हैं, तो वे लगभग हमेशा ROS2 और उस पर चलने वाले विभिन्न संवेदन, योजना और नियंत्रण पैकेज की बात करते हैं।

ह्यूमनॉइड रोबोट

ROS2: यह एक ऑपरेटिंग सिस्टम नहीं है, बल्कि स्वतंत्र रोबोट सॉफ्टवेयर के बीच संचार के लिए एक सामान्य पाइपलाइन है

तीन: LLM का रोबोटिक्स क्षेत्र में उपयोग

फिर, ChatGPT जन्मा।

अचानक ऐसा कुछ आ गया: LLM। यह सरल अंग्रेजी निर्देशों को पढ़ सकता है, बहु-चरणीय तर्क कर सकता है, कोड लिख सकता है और फ़ंक्शन को कॉल कर सकता है। रोबोटिक्स विशेषज्ञों ने लगभग तुरंत अनुमान लगा लिया कि यही वह अपूर्ण कड़ी है जिसकी वे वर्षों से प्रयास कर रहे थे। परिवार या कार्यालय में कुछ उपयोगी कार्य करने के लिए रोबोट को सक्षम बनाने का सबसे कठिन हिस्सा आमतौर पर मोटर नियंत्रण नहीं, बल्कि मानव-रोबोट इंटरैक्शन है: मनुष्य रोबोट को क्या करना है, यह कैसे बताए, और रोबोट इस लक्ष्य को उन परमाणु क्रियाओं में कैसे विभाजित करे जिन्हें वह पहले से ही निष्पादित करना जानता है?

मशीनों पर LLM के पहले उपयोग को ROS के ऊपर एक प्राकृतिक भाषा कंपाइलर के रूप में देखा गया था। पैटर्न निम्नलिखित है:

कृपया रसोई के काउंटर पर रखे गए कॉफी कप को लाकर मेरी मेज पर रख दें।
LLM रोबोट के उपलब्ध परमाणु कौशल की सूची के आधार पर योजना बनाता है: फ़ंक्शन कॉल सीरीज़, स्टेट मशीन, या XML में लिखा गया बिहेवियर ट्री हो सकता है।
ROS2 नोड इस योजना को कदम दर कदम निष्पादित करेगा। यदि कोई चरण विफल हो जाता है, तो विफलता की जानकारी LLM को रिपोर्ट की जाएगी, ताकि LLM पुनः योजना बना सके।

Google का 2022 का SayCan प्रोजेक्ट इस अवधारणा का एक बहुत सरल संस्करण है: LLM कौशल प्रस्तावित करता है, एक स्वतंत्र “सुलभता” मॉडल प्रत्येक कौशल की वर्तमान सफलता की संभावना का मूल्यांकन करता है, और रोबोट संयुक्त स्कोर के आधार पर सर्वोच्च कौशल संयोजन चुनता है। Huawei रिसर्च लैब द्वारा विकसित ROS-LLM, ROSGPT और ROSA जैसे ओपन फ्रेमवर्क ने इस मॉडल को लोकप्रिय बनाया है।

यह वास्तव में एक महत्वपूर्ण कूद है। अचानक, आप रोबोट को "मेज साफ करो, रीसाइकल कचरा नीले कूड़ेदान में डालो" कह सकते हैं, और यह कुछ तर्कसंगत कार्रवाई करने का प्रयास करेगा। लेकिन ध्यान दें, अभी भी कुछ समस्याएँ हैं: भाषा मॉडल अभी भी योजना स्तर पर है। वास्तविक कार्रवाई निर्देश अभी भी नीचे के, सावधानी से डिज़ाइन किए गए या विशेष रूप से प्रशिक्षित नियंत्रकों द्वारा उत्पन्न होते हैं। भाषा मॉडल केवल एक बुद्धिमान स्केड्यूलर है, जो ड्राइविंग का काम नहीं करता।

ह्यूमनॉइड रोबोट

चार: विज़ुअल-लैंग्वेज-एक्शन मॉडल (VLA), जब दिमाग रोबोट को चलाना शुरू करता है

ह्यूमनॉइड रोबोट

Keenon XMAN-R1 रोबोट बीजिंग में Galbot कंपनी के स्वचालित फार्मेसी में शेल्फ से दवाएं निकाल रहा है। केवल 10 लाख डॉलर में

अगली छलांग अधिक कठिन होगी, लेकिन अधिक महत्वपूर्ण भी होगी। शोधकर्ताओं ने एक अधिक दावेदार प्रश्न उठाया: यदि मॉडल केवल योजना बनाने के बजाय सीधे कार्रवाई निर्देश उत्पन्न कर सकता है? यदि कैमरा छवियों और भाषा निर्देशों को सीधे एक न्यूरल नेटवर्क में प्रवेश कराया जाए, तो क्या हम अगले मिलीसेकंड की जॉइंट गति प्राप्त कर सकते हैं?

यह विजुअल-लैंग्वेज-एक्शन मॉडल (VLA) है। यह अब मानवीय रोबोट और चार पैरों वाले रोबोट के क्षेत्र में प्रमुख परिप्रेक्ष्य है।

पहला व्यापक रूप से जाना जाने वाला दृश्य-भाषा रोबोट 2023 में गूगल डीपमाइंड द्वारा लॉन्च किया गया RT-2 था। इसकी चालाकी यह है: एक बड़े दृश्य-भाषा मॉडल (जिसे चित्र वर्णन और प्रश्नोत्तर के लिए प्रशिक्षित किया गया है) का उपयोग करना और रोबोट प्रदर्शन डेटा के साथ इसे आगे प्रशिक्षित करना, लेकिन रोबोट की क्रियाओं को एक अन्य पूर्वानुमानित टोकन के रूप में देखना। एक ही न्यूरल नेटवर्क मूल रूप से "बिल्ली तकिए पर बैठी है" आउटपुट कर सकता था, अब यह "दाएं पंजे को 3 सेमी आगे बढ़ाएं, पंजे को समेटें, 5 सेमी उठाएं" को कोडित करने वाले टोकनों की एक श्रृंखला आउटपुट कर सकता है। निष्कर्ष और कार्रवाई दोनों एक ही मॉडल में पूरी की जाती हैं।

इसके बाद, 2024 के मध्य में, स्टैनफोर्ड विश्वविद्यालय के नेतृत्व में एक टीम ने OpenVLA जारी किया, जो 70 अरब पैरामीटर के साथ एक ओपन-सोर्स VLA मॉडल है, जिसे Open X-Embodiment डेटासेट पर प्रशिक्षित किया गया है। यह डेटासेट 21 अलग-अलग शोध प्रयोगशालाओं से एकत्रित 22 अलग-अलग रोबोट बॉडी के एक मिलियन से अधिक प्रशिक्षण अंशों को एकजुट करता है। यह पहली बार था जब गूगल के बाहर कोई भी सामान्य रोबोट मॉडल डाउनलोड कर सकता था और संशोधन शुरू कर सकता था। यह पूरे क्षेत्र को एक रात में बदल दिया।

अब, शीर्ष VLA, हालांकि संख्या में कम हैं, तेजी से विकसित हो रहे हैं:

Physical Intelligence से π0 और π0.5: उत्कृष्ट कार्य अनुकलन।
NVIDIA Isaac GR00T N1.7: ओपन वेट्स, व्यावसायिक लाइसेंस, मानवीय रोबोट के लिए डिज़ाइन किया गया, जो अधिकांश चीनी हार्डवेयर कंपनियों द्वारा अपने डेटा का उपयोग करके पोस्ट-ट्रेनिंग के लिए वर्तमान में उपयोग किया जा रहा है।
Figure AI के Helix और अपडेटेड Helix-02: निजी तकनीक, लेकिन आर्किटेक्चरल रूप से महत्वपूर्ण।
AgiBot का Genie Envisioner: चीनी विश्व मॉडल पर आधारित प्लेटफॉर्म।
SmolVLA, NORA, ACoT-VLA, CogACT: एकाधिक VLA शैक्षणिक समुदाय में उभर रहे हैं, जो विभिन्न डिज़ाइन दिशाओं का पता लगा रहे हैं।

VLA कैसे काम करता है (गणितीय सूत्रों के बिना)

VLA को तीन इनपुट सिग्नल्स को एक आउटपुट सिग्नल में फ्यूज करने के रूप में कल्पना कर सकते हैं।

पहला डेटा स्ट्रीम दृश्य डेटा है। RGB कैमरा (कभी-कभी गहराई सेंसर या लाइडार), कभी-कभी उंगलियों के छोर पर स्पर्श सेंसर, दृश्य एन्कोडर (आमतौर पर DINOv2 या SigLIP जैसे Transformer मॉडल) द्वारा प्रसंस्कृत किया जाता है, जो प्रत्येक छवि को सैकड़ों “दृश्य टोकन” में संकुचित करता है, जो रोबोट द्वारा देखे गए सामग्री का सारांश प्रस्तुत करते हैं।

दूसरा डेटा स्ट्रीम भाषा है। आपके निर्देश („स्क्रूड्राइवर मुझे दें“) को ChatGPT की तरह टोकन में बदल दिया जाता है।

इन दो डेटा स्ट्रीम्स को जोड़ दिया जाता है और एक Transformer "बॉडी" (आमतौर पर Qwen3 या Llama जैसे एक छोटा ओपन-सोर्स भाषा मॉडल) में इनपुट किया जाता है। यह बॉडी निष्कर्ष निकालने के लिए जिम्मेदार है, जो यह देखता है कि इसे क्या जानकारी मिली है और इससे क्या पूछा गया है।

तीसरा डेटा स्ट्रीम: कार्रवाई, दूसरे छोर से बहती है। यहाँ विभिन्न आर्किटेक्चर डिज़ाइन अलग-अलग होते हैं:

डिस्क्रीट एक्शन टोकन: मॉडल सीधे जॉइंट कोण या एंड इफेक्टर पोजीशन में डिकोड किए जा सकने वाले टोकन उत्पन्न करता है, जैसे ChatGPT शब्द उत्पन्न करता है। यह तरीका सरल है, लेकिन उच्च आवृत्ति पर संचालन करते समय झटका पैदा करता है।
डिफ्यूजन या फ्लो-मैचिंग एक्शन हेड: एक स्वतंत्र सूक्ष्म नेटवर्क मुख्य नेटवर्क के आउटपुट को स्वीकार करता है और एक चिकनी जॉइंट पोजिशन ट्रैजेक्टरी को डीनॉइज़ करके जनरेट करता है, जैसे कि इमेज डिफ्यूजन मॉडल, केवल यहां गति को जनरेट किया जाता है। यही π0 का तरीका है, जिससे अधिक चिकने और प्राकृतिक कार्रवाई प्राप्त होती हैं।
Action Chunking: Instead of predicting the next single instruction, predict the entire set of instructions for the next half-second to smooth out jitter.

ह्यूमनॉइड रोबोट

VLA मॉडल में: दो इनपुट स्ट्रीम्स इनपुट होते हैं, गति निर्देश आउटपुट होते हैं, और निष्कर्ष और कार्रवाई एक ही नेटवर्क में एकीकृत होते हैं।

यह निर्णायक आर्किटेक्चरल परिवर्तन है: निष्कर्ष निकालना और कार्रवाई अब अलग नहीं हैं। न्यूरल नेटवर्क को कप की पहचान करना सिखाने के साथ-साथ यह भी सिखाया गया कि कप को कैसे पकड़ें। यही संयोजन VLA को सामान्यीकरण करने की अनुमति देता है, जबकि उनके पूर्वज इसे नहीं कर पाए।

पाँच: डबल ब्रेन स्ट्रैटेजी, LLM और VLA कैसे सहयोग करते हैं

यहाँ एक ऐसा विवरण है जिसे मार्केटिंग में कम ही स्पष्ट रूप से समझाया जाता है। आज के सबसे अच्छे प्रदर्शन वाले मानव रूपी रोबोट एकल VLA सिस्टम के बजाय दो अलग-अलग गति वाले मॉडल चलाते हैं, जो एक-दूसरे के साथ संचार करते हैं। इसे कभी-कभी डैनियल काहनमैन के मनोविज्ञान के संदर्भ से द्वि-सिस्टम या सिस्टम 1 / सिस्टम 2 आर्किटेक्चर कहा जाता है, जिसमें मानव के पास एक तेज़ अनुभवजन्य मस्तिष्क और एक धीमा, गहन विचार करने वाला मस्तिष्क होता है।

Figure AI का Helix इस डिज़ाइन को क्लासिक बना देता है, और अब इसे (और इसके वेरिएंट्स को) लगभग हर जगह नकल किया जा रहा है। विशेष रूप से महत्वपूर्ण है कि NVIDIA का GR00T N1.7 इस डिज़ाइन को अपनाता है, और अधिकांश चीनी मानवरूपी रोबोट भी इस डिज़ाइन को अपनाते हैं। इसकी संरचना निम्नलिखित है:

सिस्टम 2 (S2): धीमी सोच वाला दिमाग। 70 अरब पैरामीटर वाला एक विजुअल-लैंग्वेज मॉडल, जो लगभग 7–9 हर्ट्ज (प्रति सेकंड 7 से 9 बार) की आवृत्ति पर चलता है। इसका कार्य दृश्यों को देखना, निर्देशों को समझना, बहु-चरणीय तर्क करना (जैसे, “कटोरा सीरियल के बॉक्स के पीछे है; मुझे पहले बॉक्स हटाना होगा”), और उच्च-स्तरीय इच्छाओं को जारी करना है—आमतौर पर शब्दों के बजाय संक्षिप्त आंतरिक सदिशों के सेट के रूप में।
सिस्टम 1 (S1): त्वरित प्रतिक्रिया ब्रेन। एक बहुत छोटा (लगभग 80 मिलियन पैरामीटर) दृश्य-गतिविधि रणनीति मॉडल, जो 200 हर्ट्ज़ की आवृत्ति पर चलता है। यह S2 के इच्छा सदिश के साथ-साथ नवीनतम सेंसर डेटा प्राप्त करता है और सतत जोड़ी निर्देश उत्पन्न करता है। इसमें किसी भी वास्तविक अर्थ में "सोचना" नहीं होता, केवल प्रतिक्रिया होती है।

हाल ही में, Figure कंपनी के Helix-02 में सिस्टम 0 (System 0) जोड़ा गया है। यह डबल-ब्रेन सिस्टम के नीचे स्थित एक प्रतिबिंब परत है, जो तीसरी ज्ञानात्मक परत नहीं है। यह 10 मिलियन पैरामीटर्स वाला एक नेटवर्क है जो 1 kHz की आवृत्ति पर चलता है और नीचले स्तर की संतुलन और पूरे शरीर की समन्वय को संभालता है, जिसने लगभग एक लाख पंक्तियों के हाथ से लिखे गए मोशन कंट्रोल C++ कोड को प्रतिस्थापित कर दिया है। आप S0 को एक अर्जित स्पाइनल कोर्ड के रूप में सोच सकते हैं: यह तर्क या योजना नहीं बनाता, बल्कि केवल शरीर को सीधा रखने और समन्वयित करने के लिए जिम्मेदार होता है, जबकि सोचना ऊपरी डबल-ब्रेन सिस्टम द्वारा किया जाता है।

ह्यूमनॉइड रोबोट

आधुनिक मानवरूपी रोबोट की दो मस्तिष्क अवधारणा: सिस्टम 2 धीमा सोचता है, सिस्टम 1 त्वरित प्रतिक्रिया देता है—इसके नीचे एक सिस्टम 0 प्रतिवर्ती स्तर है, जो संतुलन, स्पर्श संपर्क और पूरे शरीर की समन्वय को बनाए रखता है

यह विभाजन भौतिकी की सीमाओं से उत्पन्न होता है। यदि प्रत्येक 200 मिलीसेकंड (जो एक बड़े VLA की गति है) पर केवल एक गति निर्देश भेजा जाता है, तो रोबोट की गति पानी के अंदर चलने जैसी धीमी हो जाएगी। गति निर्देशों को उन जोड़ों की प्राकृतिक कंपन की तुलना में तेज़ी से अपडेट किया जाना चाहिए, जिसका अर्थ है कि प्रति सेकंड सैकड़ों या हजारों अपडेट की आवश्यकता होती है। कोई भी 70 अरब पैरामीटर का Transformer मॉडल बैटरी से संचालित रोबोट पर इतनी तेज़ी से चल नहीं सकता।

इसलिए, ज्ञानात्मक कार्यों का विभाजन किया गया: विशाल और धीमा मॉडल सोचने के लिए जिम्मेदार है; छोटा और तेज मॉडल कार्रवाई के लिए जिम्मेदार है। वे अंग्रेजी में बात नहीं करते, बल्कि सीखे गए लेटेंट वेक्टर्स के माध्यम से संचार करते हैं: धीमा मॉडल अमूर्त लक्ष्य भेजता है, और तेज मॉडल इसे कैसे समझना है, यह जानता है।

सेक्शन 6: क्लाउड, एज कॉम्प्यूटिंग और “दिमाग” की स्थिति

ये सभी गणनाएँ वास्तव में कहाँ की जाती हैं?

आजकल, रोबोट टीमों के बीच लगभग एक मजबूत, लगभग आदर्शवादी सहमति बन गई है कि सुरक्षा के लिए महत्वपूर्ण नियंत्रण लूप स्थानीय रूप से चलाए जाने चाहिए। कारण दो हैं:

देरी। वाईफाई या सेलुलर नेटवर्क का राउंड ट्रिप ट्रांसमिशन समय, सबसे अच्छे मामले में भी 30-80 मिलीसेकंड होता है। जबकि एक्शन निर्देशों को प्रति 1-5 मिलीसेकंड अपडेट किया जाना चाहिए। ऐसा नेटवर्क साइकिल सामान्य रूप से काम नहीं कर सकता।

रिलायबिलिटी। रोबोट फैक्ट्री, वेयरहाउस, रसोईघर, अस्पताल आदि स्थानों पर काम करते हैं। नेटवर्क कभी भी डिस्कनेक्ट हो सकता है। अगर Wi-Fi कट जाने पर रोबोट रुक जाएगा, तो यह एक सुरक्षा खतरा बन जाएगा।

इसलिए, आधुनिक विभाजन लगभग इस प्रकार है:

स्थानीय रूप से, NVIDIA Jetson Thor या AGX Thor मॉड्यूल (लगभग 2,000 TFLOPS, 128 GB मेमोरी, 40–130 W उपभोग) पर चलाया जाता है:

S0/S1 के सभी कार्य: संतुलन, गति, सूक्ष्म गतिक नियंत्रण।
VLA खुद (सिस्टम 2), हार्डवेयर सीमाओं के अनुकूल बनाने के लिए, बढ़ते हुए FP8 या FP4 फॉर्मेट में क्वांटाइज़ किया जा रहा है। आज 20 अरब से 70 अरब पैरामीटर के रेंज के मॉडल डिवाइस पर चल सकते हैं।
Perception, sensor fusion, and a security monitoring program that can cover any other operation.

क्लाउड या रिमोट सर्वर (यदि कोई मौजूद हो):

डायलॉग इंटरफेस (“अरे, रोबोट, मुझे रात का खाना क्या बनाना चाहिए?”): इन इंटरफेस में देरी को सहन किया जा सकता है।
Cluster learning: Thousands of robots send remote operation data back to the server to be aggregated into the next version of the model.
बड़े पैमाने पर दीर्घकालिक योजना बनाने की आवश्यकता है, जिसमें अग्रणी मॉडल का उपयोग किया जा सकता है।
Operator Dashboard and Monitoring.

इसके अलावा, एक बढ़ती हुई मध्यवर्ती परत है: कारखानों या गोदामों में स्थित स्थानीय एज वर्कर, जो स्थानीय नेटवर्क के माध्यम से रोबोट क्लस्टर के साथ संचार करते हैं और देरी केवल कुछ मिलीसेकंड की होती है। अधिक बड़े LLM इस परत पर स्थापित हो सकते हैं, जो एकल रोबोट के लिए स्वयं प्रबंधित करने की आवश्यकता नहीं होने वाले उच्च स्तरीय शेड्यूलिंग कार्यों को निष्पादित करते हैं।

चीन की मानव रूपी रोबोट लहर इस धारणा पर आधारित है: यूनिट्री (Unitree), ज़ह्युआन (AgiBot), शियाओपेंग IRON, फूलीयू (Fourier), ज़हजी डायनमिक्स (EngineAI)। उनके रोबोट में बोर्ड-पर कैलकुलेशन क्षमता (आमतौर पर Jetson, कभी-कभी हुआवे Ascend जैसे घरेलू चिप्स का उपयोग) होती है, जबकि क्लाउड का उपयोग नियंत्रण लूप के बजाय क्लस्टर लर्निंग और डायलॉग इंटरफेस के लिए किया जाता है।

ह्यूमनॉइड रोबोट

बॉट का मस्तिष्क वास्तव में कहाँ चल रहा है: सुरक्षा-महत्वपूर्ण लूप स्थानीय रूप से चल रहे हैं, जबकि क्लाउड उन चीजों को संभालने के लिए उपयोग किया जाता है जिनकी प्रतीक्षा की जा सकती है।

सात: क्यों ओपन सोर्स मॉडल धीरे-धीरे ध्यान का केंद्र बन रहे हैं

अगर आप केवल प्रदर्शन देखते हैं, तो आपको लग सकता है कि यह क्षेत्र कुछ ही धनी अमेरिकी कंपनियों द्वारा नियंत्रित है। लेकिन वास्तविकता इससे कहीं अधिक जटिल है। भौतिक AI का विकास तेजी से ओपन सोर्स वेट मॉडल्स द्वारा निर्धारित हो रहा है, जिन्हें कोई भी डाउनलोड और माइक्रो-ट्यून कर सकता है।

नीचे दिए गए मॉडल्स संख्या में कम हैं, लेकिन उनका महत्वपूर्ण है:

OpenVLA (Stanford University): पहला ओपन-सोर्स 7B जनरल-पर्पस रोबोट मॉडल।
NVIDIA Isaac GR00T (N1, N1.5, N1.7): ओपन सोर्स वेट्स जल्द ही लॉन्च होंगे, और व्यावसायिक लाइसेंसिंग भी जल्द ही उपलब्ध होगी; यह मॉडल लाखों घंटों के मानव-केंद्रित वीडियो पर प्रशिक्षित है। GR00T N1.7 का लॉन्च मार्च 2026 में होगा, जिससे उस समय कोई भी मानवरूपी रोबोट धारक इसके डुअल-सिस्टम आर्किटेक्चर का मुफ्त उपयोग कर सकेगा।
Physical Intelligence का π0: अनुसंधान के लिए वजन जारी।
NVIDIA Cosmos: ओपन वर्ल्ड बेस मॉडल।
AgiBot World: शंघाई स्टार्टअप की ओर से एक विशाल ओपन-सोर्स डेटासेट, जिसमें रिमोटली ऑपरेटेड ह्यूमनॉइड रोबोट्स के डेमो शामिल हैं।
Hugging Face का LeRobot: एक खुला पुस्तकालय, जो उपरोक्त सभी प्लेटफॉर्म का संगम बन गया है।
Mimic robotics का mimic-video: एक ओपन-सोर्स वीडियो-टू-एक्शन मॉडल, जो पारंपरिक VLA की तुलना में 10 गुना अधिक नमूना दक्षता प्रदान करता है।

इसका महत्व दो कारणों से है। पहला, रोबोट स्टार्टअप को एक बेस मॉडल को प्री-ट्रेन करने के लिए करोड़ों डॉलर खर्च करने की आवश्यकता नहीं है: वे GR00T या π0 ले सकते हैं और अपने रोबोट के डेटा के साथ इसका पोस्ट-ट्रेनिंग कर सकते हैं। युयु, ज़हुजी डायनेमिक्स, बूस्टर, गैलबॉट और दर्जनों छोटी चीनी कंपनियाँ ठीक इसी तरह कर रही हैं। यही कारण है कि केवल कुछ सौ कर्मचारियों वाली कंपनी भी चलने, बोलने और कपड़े बुनने में सक्षम मानवरूपी रोबोट बना पा रही है: वे ओपन-सोर्स टेक स्टैक के कंधों पर खड़ी हैं।

दूसरा, ओपन सोर्स मॉडल सुरक्षा समस्याओं का एकमात्र व्यावहारिक समाधान है। यदि एक पूरी तरह से बंद सोर्स मॉडल किसी कारखाने के कार्यशाला में रोबोट के अंदर चल रहा है और बाहरी दुनिया के पास इसके निष्कर्षण तर्क के बारे में कोई जानकारी नहीं है, तो यह निश्चित रूप से एक नियामक का सपना है। ओपन सोर्स मॉडल ऑडिटर्स, शोधकर्ताओं और संचालकों को यह जांचने में सक्षम बनाते हैं कि रोबोट को किस चीज़ के लिए प्रशिक्षित किया गया है।

八：还有哪些问题尚未解决

अगर आपने काफी सारे रोबोट डेमो वीडियो देखे हैं, तो आपने काफी सारे रोबोट विफलता वीडियो भी देखे होंगे। वर्तमान पीढ़ी के LLM+VLA रोबोट वास्तव में प्रभावशाली हैं, लेकिन इनमें स्पष्ट सीमाएँ भी हैं। यहाँ इनकी समस्याएँ हैं:

कार्य के मध्य में पुनः शुरू करना। VLA पिछली किसी भी तकनीक की तुलना में अप्रत्याशित परिवर्तनों के साथ निपटने की क्षमता रखता है। लेकिन जब वास्तव में कुछ गलत हो जाता है (जैसे कि पकड़ने में विफलता, वस्तु का रोल होना, या कोई कार्यक्षेत्र में प्रवेश कर जाए), तो फिर से सही पथ पर आना अभी भी एक कमजोरी है। रोबोट असफल कार्रवाइयों को अंधाधुंध दोहराता रहता है।
सैंपल दक्षता। एक VLA को शून्य से प्रशिक्षित करने के लिए हजारों घंटे के रिमोट ऑपरेशन डेटा की आवश्यकता होती है। जबकि मनुष्य एक नए उपकरण को संचालित करना कुछ ही मिनटों में सीख लेते हैं। यह दक्षता का अंतर विशाल है।
跨实体泛化。在斯坦福实验室中用 Franka 机械臂训练的模型，无法完美迁移到深圳仓库中的宇树人形机器人上。两者的物理形态不同。
लंबी अवधि का कार्य। कोई भी कार्य जिसमें 30-60 सेकंड से अधिक का निरंतर व्यवहार शामिल हो और जिसमें कई उप-लक्ष्य हों, उद्देश्य से भटक जाने की संभावना अधिक होती है। "मुझे नाश्ता बना दो" जैसे कार्य हमेशा अप्राप्य रहते हैं।
भौतिक ज्ञान। VLA को समझ के बजाय नकल के लिए प्रशिक्षित किया गया है। यह वास्तव में नहीं समझता कि जब एक कप पानी गिराया जाता है, तो पानी बाहर बह जाता है। यह केवल कुछ उदाहरणों को देख चुका है और पैटर्न मैचिंग के आधार पर अगला क्या होगा, इसकी भविष्यवाणी करता है।
स्पेशल रीजनिंग क्षमता। हालाँकि वे बहु-मॉडल हैं, लेकिन "बाधा के बजाय उसके आसपास जाएं" या "इन चीजों को एक के ऊपर एक इस तरह ढेर करें कि वे न गिरें" जैसे कार्यों में असाधारण रूप से कमजोर हैं।

इन अंतिम कमजोरियों ने इस क्षेत्र को एक संपूर्ण रूप से अलग मॉडल पर बेट लगाने के लिए प्रेरित किया।

नौ: विश्व मॉडल

कल्पना कीजिए कि अगर हम रोबोट को एक्शन का अनुमान लगाने के बजाय एक्शन के परिणामों का अनुमान लगाने के लिए प्रशिक्षित करें, तो क्या होगा?

वर्ल्ड मॉडल (World Model) एक न्यूरल नेटवर्क है जो वर्तमान दुनिया की स्थिति (आमतौर पर एक वीडियो या फ्रेम्स की श्रृंखला) और पूर्वनिर्धारित कार्रवाई के आधार पर दुनिया के अगले रूप का अनुमान लगाता है। सरल शब्दों में, आप इसे एक ड्राइविंग व्हील के साथ एक सीखने वाले वीडियो प्रेडिक्टर के रूप में कल्पना कर सकते हैं। आप इसे अंतिम सेकंड का कैमरा फुटेज दिखाते हैं और बताते हैं "रोबोट अपनी बांह 10 सेमी आगे बढ़ाएगा", और यह अगले सेकंड का एक वास्तविक वीडियो जनरेट करता है।

यह क्यों महत्वपूर्ण है?

क्योंकि एक विश्व मॉडल के साथ, रोबोट कार्रवाई से पहले सोच सकता है। यह तीन या चार अलग-अलग संभावित कार्रवाइयों की कल्पना कर सकता है, प्रत्येक कार्रवाई के परिणाम का अनुमान लगा सकता है, उन्हें स्कोर दे सकता है और सर्वोत्तम विकल्प चुन सकता है। यह सब मोटर गति से पहले पूरा हो जाता है। यही शतरंज इंजन का काम करने का तरीका है: यह चालों को याद नहीं रखता, बल्कि भविष्य का अनुकरण करता है। पिछले समय तक भौतिक रोबोटिक्स में ऐसी क्षमता कभी नहीं थी, क्योंकि वास्तविक दुनिया के जटिलताओं का अनुकरण करने के लिए पर्याप्त सटीक मॉडल कभी उपलब्ध नहीं हुए।

ह्यूमनॉइड रोबोट

वर्ल्ड मॉडल रोबोट को विभिन्न संभावित भविष्य के परिदृश्यों का अनुकरण करने, उन्हें स्कोर देने और किसी भी मोटर को शुरू करने से पहले सर्वोत्तम विकल्प चुनने की अनुमति देते हैं।

2026 का विश्व मॉडल वास्तव में कैसा होगा?

वर्तमान में सबसे उन्नत विश्व मॉडल की कई प्रकार हैं, लेकिन वे तेजी से विकसित हो रहे हैं। नीचे कुछ मॉडल दिए गए हैं:

NVIDIA Cosmos: एक ओपन-वर्ल्ड बेस मॉडल सीरीज, जिसमें Cosmos Predict 2.5 (जनरेटिव मॉडल), Cosmos Transfer 2.5 (कंट्रोल्ड सिमुलेशन मॉडल), Cosmos Reason 2 (रोबोट्स के लिए विजुअल-लैंग्वेज रीजनिंग) और सबसे हालिया Cosmos Policy शामिल हैं। Cosmos Policy आगे बढ़कर, वर्ल्ड मॉडल पर पोस्ट-ट्रेनिंग के माध्यम से कंट्रोल के लिए सीधे एक्शन आउटपुट करता है। Cosmos की ट्रेनिंग लाखों GPU घंटे के वीडियो डेटा पर की गई है (Cosmos Predict 2.5 इस सीरीज का वर्ल्ड मॉडल है)।
DeepMind Genie 3: एक इंटरैक्टिव वर्ल्ड मॉडल जो टेक्स्ट प्रॉम्प्ट के आधार पर पूरी तरह से नेविगेटेबल वातावरण बनाता है, 24 फ्रेम प्रति सेकंड की फ्रेम रेट के साथ और कई मिनटों तक स्थिर रूप से चलता है। शुरू में गेमिंग वातावरण के लिए डिज़ाइन किया गया।
Meta V-JEPA 2: एक मिलियन से अधिक घंटे के वेब वीडियो का उपयोग प्री-ट्रेनिंग के लिए किया गया, और फिर केवल 62 घंटे के रोबोट वीडियो का उपयोग एक्शन-कंडिशनेड ट्रेनिंग के लिए किया गया। विभिन्न प्रयोगशालाओं में वास्तविक रोबोट हाथों पर, किसी भी विशिष्ट कार्य की ट्रेनिंग के बिना, 80% जीरो-शॉट पिक-अप-प्लेस सफलता प्राप्त की गई। "JEPA" विधि संरचनात्मक रूप से अन्य विधियों से भिन्न है।
DeepMind Dreamer 4: केवल ऑफ़लाइन डेटा का उपयोग करके, बिना किसी वातावरण अंतरक्रिया के, माइनक्राफ्ट में डायमंड इकट्ठा करना (20,000 स्टेप का कार्य) सीख गया। इससे साबित होता है कि वर्चुअल दुनिया में वास्तविक रीइनफोर्समेंट लर्निंग संभव है।
AgiBot का Genie Envisioner: चीन से एक एकीकृत विश्व मॉडल प्लेटफॉर्म, जिसे 3000 घंटे से अधिक के वास्तविक दुनिया के मानव रूपी रोबोट संचालन वीडियो के साथ प्रशिक्षित किया गया है। यह या तो भविष्यवाणी की गई विस्तार ट्रैजेक्टरी उत्पन्न कर सकता है या निष्पादनयोग्य कार्रवाई ट्रैजेक्टरी उत्पन्न कर सकता है। AgiBot NVIDIA Cosmos Predict 2 को बॉनी नेटवर्क के रूप में उपयोग करता है और अपने डेटा के साथ पोस्ट-ट्रेनिंग करता है। यही पहले वर्णित “ओपन सोर्स टेक स्टैक + स्वयं का डेटा” मॉडल है।
Toyota Research Institute's Cosmos-based world model: For remote operation data augmentation and navigation.

ह्यूमनॉइड रोबोट

2025-2026 के छह सबसे महत्वपूर्ण विश्व मॉडल, जिनमें से प्रत्येक मशीन को भौतिकी कैसे सीखनी चाहिए, इसके लिए अलग-अलग कल्पनाएँ प्रस्तुत करते हैं।

दस: वैकल्पिक आर्किटेक्चर, क्योंकि इस क्षेत्र में अभी तक कोई निर्णय नहीं हुआ है

विश्व मॉडल बनाने का कोई एक समान मानक नहीं है। आर्किटेक्चर का विवाद वर्तमान में AI क्षेत्र का सबसे दिलचस्प विवादों में से एक है, जो रोबोट के भविष्य में क्या कर सकते हैं, इस पर सीधा प्रभाव डालता है। निम्नलिखित तीन दलों पर ध्यान देना चाहिए:

पिक्सल-लेवल वीडियो डिफ्यूजन (कॉस्मोस/सोरा स्कूल): डिफ्यूजन मॉडल का उपयोग करके भविष्य के फ्रेम के वास्तविक पिक्सल का अनुमान लगाएं। इसका लाभ यह है कि यह संश्लेषित डेटा जनरेटर के रूप में कार्य कर सकता है, जो कभी नहीं हुए नए रोबोट प्रदर्शन को रेंडर कर सकता है। नुकसान यह है कि इसकी लागत अधिक है, कभी-कभी भौतिकी के नियमों का उल्लंघन करता है, और ऐसे पिक्सल का अनुमान लगाना जिन्हें कभी नहीं देखा जाएगा, एक बर्बादी है।

जॉइंट एम्बेडेड प्रेडिक्शन आर्किटेक्चर, जिसे JEPA (LeCun स्कूल) के नाम से जाना जाता है: पिक्सेल की भविष्यवाणी नहीं, बल्कि अगले फ्रेम के अमूर्त प्रतिनिधित्व की भविष्यवाणी करें। टेक्सचर के विवरण को छोड़ दें, केवल स्थिति में वस्तुओं के अर्थपूर्ण सार को बनाए रखें। इसका लाभ है कि यह कुशल है और क्रिया के लिए महत्वपूर्ण कारकों पर केंद्रित है। इसकी कमी है कि इसका उपयोग करना कठिन है। V-JEPA, V-JEPA 2 और नवीन JEPA-VLA मिश्रित मॉडल इस क्षेत्र का अन्वेषण कर रहे हैं।

पोटेंशियल एक्शन वर्ल्ड मॉडल (जेनी/ड्रीमर परंपरा): एक पोटेंशियल "एक्शन लैंग्वेज" में पूरे वीडियो क्लिप को संपीड़ित करना सीखें, जो व्यवहार संरचना को कैप्चर करता है, और फिर वर्ल्ड मॉडल को ट्रेन करें ताकि यह अगले पोटेंशियल एक्शन के आधार पर अगला पोटेंशियल स्टेट भविष्यवाणी कर सके। इसका फायदा यह है कि आप बिना एक्शन वाले वेब वीडियो का उपयोग करके ट्रेनिंग कर सकते हैं, और फिर कुछ वास्तविक रोबोट डेटा जोड़ सकते हैं। नुकसान यह है कि पोटेंशियल एक्शन मानवों द्वारा समझे नहीं जा सकते, और सुरक्षा विश्लेषण जटिल हो जाता है।

ह्यूमनॉइड रोबोट

पिक्सेल डिफ्यूजन, JEPA और पोटेंशियल एक्शन: एक ही लक्ष्य, लेकिन दुनिया के मॉडल को बनाने का तरीका पूरी तरह से अलग

十一：वर्ल्ड मॉडल पर आधारित रोबोट के वास्तविक अनुप्रयोग

अगर आप कुछ साल आगे फास्ट फॉरवर्ड करें, तो अग्रणी मानवरूपी रोबोट की अर्किटेक्चर ऐसी दिख सकती है:

VLA पर एक वर्ल्ड मॉडल लगा हुआ है। जब रोबोट को नई स्थिति का सामना करना पड़ता है, तो यह निम्नलिखित जैसी कार्रवाई करता है:

VLA ने कुछ अगले कदमों के उम्मीदवार सुझाव दिए हैं (यह अभी भी रणनीति है)।
वर्ल्ड मॉडल प्रत्येक उम्मीदवार कार्रवाई को प्राप्त करता है और 1-3 सेकंड का काल्पनिक वीडियो सिमुलेट करता है।
मूल्य निर्धारक अनुमानित परिणामों के आधार पर अंक देते हैं: क्या कप उठाया गया? कुछ गिरा क्या? क्या कोई व्यक्ति टकराया?
रोबोट सबसे अधिक अंक वाली कार्रवाई का चयन करेगा और केवल उसका पहला हिस्सा निष्पादित करेगा।
Real sensor data feedback; cyclic repetition.

यह मॉडल भविष्यवाणी नियंत्रण है, जिस तकनीक का उपयोग वर्षों से रॉकेट और क्वाड्रोकॉप्टर को स्थिर रखने के लिए किया जाता रहा है, लेकिन इसमें मानव द्वारा निकाले गए भौतिक समीकरणों के स्थान पर सीखे गए विश्व मॉडल का उपयोग किया जाता है। इसकी स्केलेबिलिटी इस बात में है कि विश्व मॉडल नैवियर-स्टोक्स समीकरणों (Navier-Stokes equations) को किसी ने किचन परिवेश के लिए लिखने के कारण नहीं, बल्कि मिलियनों घंटों के वीडियो पर प्री-ट्रेन किए जाते हैं।

इसके लाभ क्रमिक रूप से बढ़ते हैं:

स्थिति में सुधार हुआ है। यदि ग्रैबिंग एक्शन में त्रुटि होती है, तो वर्ल्ड मॉडल कई सुधार मार्गों की कल्पना कर सकता है और सबसे वाद्यमय मार्ग का चयन कर सकता है।
Generalization capability has been enhanced. The world model trained on web videos has experienced several orders of magnitude more "physical phenomena" than any robot teleoperation dataset.
लंबे समय की योजना को नियंत्रित किया जा सकता है। वास्तविकता में नहीं, बल्कि कल्पना में योजना बनाएं।
अब अनुकरण और वास्तविकता के बीच का अंतर कम हो गया है। पहले, आपको अपने द्वारा बनाए गए अनुकरणकर्ता (जैसे Isaac Sim, Newton भौतिकी इंजन) का उपयोग करके प्रशिक्षण देना पड़ता था, और फिर आशा करनी पड़ती थी कि प्रशिक्षण परिणाम वास्तविक अनुप्रयोग में स्थानांतरित हो जाएंगे। अब, आप ऐसे अनुकरणकर्ता का उपयोग कर सकते हैं जिन्हें पहले से प्रशिक्षित किया गया है और जो वास्तविक वीडियो के साथ मेल खाते हैं। इसलिए, अंतर कम है।
सिंथेटिक डेटा में विस्फोटक वृद्धि हो रही है। एक वर्ल्ड मॉडल लगभग मुफ्त में अलग-अलग रोशनी, सामग्री और वस्तु विन्यासों के साथ लाखों अलग-अलग रोबोट ट्रैजेक्टरीज़ उत्पन्न कर सकता है। इससे क्षेत्र की सबसे बड़ी बाधाओं में से एक का समाधान होता है।

इसके अलावा, इसमें एक महत्वपूर्ण सुरक्षा लाभ भी है। कार्रवाई के परिणामों को अनुकरण करने में सक्षम रोबोट खतरनाक कार्रवाइयों को निष्पादित करने से इंकार कर सकते हैं: यह केवल पूर्वनिर्धारित नियमों के कारण नहीं, बल्कि इसलिए कि यह भविष्य में किसी को चोट लगने की संभावना को पूर्वानुमानित करता है।

ह्यूमनॉइड रोबोट

दो गति विधियाँ: VLA देखे गए के आधार पर प्रतिक्रिया करती है; वर्ल्ड मॉडल रोबोट गति करने से पहले सोचते हैं

12: और जानना चाहिए

सच्ची मूल समस्या डेटा समस्या है: यदि आप मॉडल को डेटा नहीं दे सकते, तो दुनिया के सभी आर्किटेक्चर नवाचार बेकार हैं। वर्तमान में, रिमोट ऑपरेशन (मनुष्य VR उपकरण पहनकर रोबोट को डिम्पल की तरह नियंत्रित करना) मुख्य तकनीकी बाधा है। एक रोबोटिक कंपनी की प्रतिस्पर्धी बाधा अब अधिकतर मॉडल के बजाय उसकी डेटा संग्रह प्रक्रिया पर निर्भर करती है। AgiBot ने ऑपरेटरों से भरे हुए गोदाम बना लिए हैं। NVIDIA GR00T N1.7 का चतुराई विस्तार नियम बताता है कि अधिक मानव पहले-व्यक्ति-दृष्टिकोण के वीडियो सीधे और पूर्वानुमेय रूप से रोबोट की चतुराई में वृद्धि करते हैं। यही कारण है कि चीन के पास संरचनात्मक लाभ है: कम डेटा संग्रह श्रम लागत, अधिक सहिष्णु डिप्लॉयमेंट परिवेश, और सरकार की सक्रिय सप्लाई चेन समन्वय।

सिमुलेशन एक समानांतर ब्रह्मांड है। NVIDIA का Isaac Sim, नया ओपन-सोर्स Newton फिजिक्स इंजन (1.0 संस्करण अप्रैल 2026 में आधिकारिक रूप से लॉन्च होगा), और Omniverse प्लेटफॉर्म, उद्यमों को बिना उन्हें वास्तविक दुनिया में डिप्लॉय किए, लाखों समानांतर सिमुलेशन वातावरणों में रोबोट को प्रशिक्षित करने की अनुमति देते हैं। अधिकांश “रोबोटिक बुद्धिमत्ता” के प्रतीत होने वाले कार्य, वास्तविक दुनिया में हार्डवेयर पर स्थानांतरित किए जाने से पहले, सिमुलेशन वातावरण में पले-बढ़े होते हैं।

आर्थिक लाभ दिखने लगे हैं। Unitree ने 2025 में लगभग 5,500 इंसानी रोबोट डिलीवर किए हैं और 2026 में 10,000 से 20,000 तक पहुँचने की योजना बना रही है। औसत कीमत दो साल में 85,000 डॉलर से घटकर 25,000 डॉलर हो गई है। Unitree का R1 5,900 डॉलर में बेचा जा रहा है। Noetix Bumi की लॉन्च कीमत 1,400 डॉलर है। इंसानी रोबोट के हार्डवेयर की कीमतें उपभोक्ता इलेक्ट्रॉनिक्स के स्तर के करीब पहुँच रही हैं, जबकि इसके अंदर की AI प्रौद्योगिकी अभी भी प्रदर्शन उत्पादों से पिछड़ी हुई है। यह अंतर अंततः समाप्त हो जाएगा, और तब, बाजार के आकार में वृद्धि पूरे उद्योग पर महत्वपूर्ण प्रभाव डालेगी।

फ़ॉल्ट मोड अजीब लग रहा है। जब LLM-आधारित रोबोट खराब होते हैं, तो वे ऐसे तरीकों से खराब होते हैं जिन्हें पारंपरिक रोबोट कभी नहीं कर सकते। उदाहरण के लिए, आत्मविश्वास से गलत काम करना, कुछ कार्यों को “भ्रमित” तरीके से महसूस करना, या अपने प्लानर के साथ संवाद चक्र में फँस जाना। पारंपरिक रोबोटिक्स समुदाय में इसके प्रति काफी संदेह है, जो पूरी तरह से उचित है, क्योंकि वे मानते हैं कि सीखने वाले प्रणालियों को सुरक्षित निगरानी और व्यवहार सीमाओं के साथ रखा जाना चाहिए। वर्तमान में सबसे विश्वसनीय स्थापित रोबोट मिश्रित हैं: VLA मस्तिष्क को हाथ से डिज़ाइन किए गए सुरक्षा केज में रखा गया है।

“ChatGPT क्षण” की कहानी एक उपयोगी लेकिन भ्रामक रूपक है: हुआंग रेनशुन हमेशा सबको बता रहे हैं कि रोबोट्स का ChatGPT क्षण आ गया है। वह ऐसा इसलिए कह रहे हैं क्योंकि NVIDIA पिक और शॉवल बेच रही है। अधिक सच्चा संस्करण यह होगा: वर्तमान में लगभग भौतिक AI के GPT-2 युग में हैं। यह शक्तिशाली है, और आपको आश्चर्यचकित कर सकता है; लेकिन अभी इतना शक्तिशाली नहीं है कि बिना देखभाल के स्थापित किया जा सके। यह तेजी से आवर्धित हो रहा है, लेकिन वायरल प्रसार का बिंदु अभी नहीं आया है, बल्कि एक धीमी और स्थिर वृद्धि का पथ है।

समापन

ह्यूमनॉइड रोबोट

यूशु चार पैरों वाले रोबोट का विकास क्रम (दाएं से बाएं)

यूशू ऑफिस में देखे गए प्रदर्शन में, पांच G1 मानवरूप रोबोट ने कुंग फू का प्रदर्शन किया, जिसकी गतिविधियाँ सावधानी से चित्रित की गईं, ऑनबोर्ड VLA-जैसा नियंत्रक समायोजित किया गया, और रिमोट ऑपरेटर ने सुनिश्चित किया कि सब कुछ सही ढंग से हो रहा है। मूल रूप से, यह पूरी तरह स्वायत्त नहीं था। लेकिन पूरी प्रक्रिया: संवेदन, योजना बनाना, गति नियंत्रण — सभी को न्यूरल नेटवर्क द्वारा प्रतिस्थापित किया जा रहा है। दो साल बाद, समान रोबोट बिना किसी चित्रण के इन्हीं गतिविधियों को पूरा करता है, क्योंकि इसने पहले से ही पूरी गतिविधि की कल्पना कर ली है और सर्वोत्तम संस्करण का चयन कर लिया है।

वर्णित पूरी विकास प्रक्रिया: हस्तलिखित नियंत्रक से लेकर मशीन लर्निंग अवगति, फिर LLM योजनाकार, फिर VLA, फिर डुअल सिस्टम आर्किटेक्चर, और अंततः विश्व मॉडल तक, वास्तव में रोबोटिक बुद्धिमत्ता के स्थान का धीमा स्थानांतरण है। यह इंजीनियर के मस्तिष्क से शुरू होती है, फिर हस्तलिखित कोड में विकसित होती है, फिर परिलक्षण स्तर में, फिर योजनाकार में, फिर नीति स्तर में। अब, यह अंततः विश्व के स्वयं के मॉडल की ओर बढ़ रही है।

हर परिवर्तन रोबोट को अधिक सामान्य, अधिक अनुकूलनीय और अधिक उपयोगी बनाता है। यदि विश्व मॉडल परिवर्तन काम करता है, तो यह रोबोट को एक शक्तिशाली क्षमता प्रदान करेगा: इतनी शक्तिशाली कि सवाल नहीं रहेगा कि "रोबोट क्या कर सकता है?" , बल्कि यह होगा कि "हमें उन्हें क्या करना चाहिए?"

संबंधित पढ़ें: 30 से अधिक मानवरूप रोबोट कंपनियों की समीक्षा: 2026 तक कौन जीतेगा?