फेई-फेई ली ने रोबोटिक्स और गेमिंग में वर्ल्ड मॉडल्स के लिए फ्रेमवर्क प्रकाशित किया

फेई-फेई ली एक बहस को सुलझाना चाहती हैं जो एआई समुदाय में कुछ समय से चल रही है: "वर्ल्ड मॉडल" के रूप में क्या गिना जाता है और क्या केवल एक लैब कोट पहने हुए एक फैंसी वीडियो जेनरेटर है।

स्टैनफोर्ड के प्रोफेसर और वर्ल्ड लैब्स के सीईओ ने 3 जून, 2026 को “ए फंक्शनल टैक्सोनॉमी ऑफ वर्ल्ड मॉडल्स” प्रकाशित किया, जिसमें वर्ल्ड मॉडल्स को तीन अलग-अलग कार्यों: रेंडरर, सिमुलेटर और प्लानर में वर्गीकृत करने का एक ढांचा प्रस्तुत किया गया। यह पेपर तर्क देता है कि ये तीन भूमिकाएँ एक अंतर्संबंधित चक्र बनाती हैं जो ली द्वारा “स्पेशियल इंटेलिजेंस” के नाम से जाने जाने वाले, भौतिक परिवेश को समझने और उसके साथ बातचीत करने में सक्षम AI के आधार को संदर्भित करती हैं।

तीन नौकरियाँ, एक मॉडल

रेंडर फंक्शन विजुअल जनरेशन को संभालता है। यह डेटा इनपुट्स से उच्च-विश्वसनीय विजुअल प्रतिनिधित्व बनाता है। यही वर्तमान में अधिकांश “वर्ल्ड मॉडल्स” वास्तव में करते हैं, और ली यह स्पष्ट तर्क देते हैं कि इस स्तर पर फंसे हुए सिस्टम वास्तविक वर्ल्ड मॉडल्स नहीं हैं।

सिमुलेटर फंक्शन और गहराई तक जाता है। यह आपको बस यह दिखाता है कि कुछ कैसा दिखता है। यह भौतिकी, कारण और प्रभाव, और वस्तुओं के समय के साथ अंतर्क्रिया के तरीके को मॉडल करता है। एक रेंडरर आपको एक गेंद को एक चट्टान के किनारे की ओर लुढ़कते हुए दिखा सकता है। एक सिमुलेटर जानता है कि गेंद गिर जाएगी।

प्लानर फंक्शन, सिम्युलेटर की दुनिया के काम करने की समझ का उपयोग करके कार्यों के मार्ग तय करता है। यह एक ऐसे AI और दूसरे AI के बीच का अंतर है जो एक रसोई को देखता है, और वह जो कैबिनेट के हर प्लेट को तोड़े बिना आपके लिए सैंडविच बनाने का तरीका निकाल सकता है।

ये तीनों कार्य अलग-अलग नहीं चलते। ली के पेपर में इन्हें एक निरंतर चक्र के रूप में वर्णित किया गया है, जहाँ प्रत्येक क्षमता दूसरों में समाहित होती है और उन्हें मजबूत करती है। एक रेंडरर विजुअल संदर्भ के बारे में सिमुलेटर को सूचित करता है, सिमुलेटर प्लानर को भौतिकी-आधारित भविष्यवाणियाँ प्रदान करता है, और प्लानर के लक्ष्य उन चीजों को निर्धारित करते हैं जिन्हें रेंडरर और सिमुलेटर को प्राथमिकता देनी होगी।

रोबोटिक्स को इसकी इतनी बुरी तरह आवश्यकता है

ली ने तर्क दिया है, जिसमें नवंबर 2025 के एक पूर्व घोषणापत्र में भी शामिल है, कि विश्व मॉडल सिमुलेशन और वास्तविकता के बीच की खाई को पार कर सकते हैं। यदि आप भौतिक दुनिया का पर्याप्त रूप से सटीक डिजिटल प्रतिरूप बना सकते हैं, तो रोबोट पहले वहाँ प्रशिक्षण प्राप्त कर सकते हैं।

वर्ल्ड लैब्स ने पहले ही इस सिद्धांत को व्यावहारिक रूप देना शुरू कर दिया है। कंपनी ने नवंबर 2025 में अपना पहला वाणिज्यिक उत्पाद, मार्बल, लॉन्च किया। मार्बल, मल्टीमोडल प्रॉम्प्ट्स से स्थायी, उच्च-विश्वसनीय 3D दुनियाएं बनाता है, जिसका अर्थ है कि आप पाठ, छवियों या अन्य इनपुट का उपयोग करके एक परिवेश का वर्णन कर सकते हैं, और मार्बल उस वर्णन से एक नेविगेटेबल 3D स्थान बनाता है। यह प्रणाली पहले से ही रोबोटिक सिमुलेशन वातावरणों में उपयोग की जा रही है।

एक वीडियो के विपरीत, जो फ्रेमों का एक निश्चित क्रम होता है, मार्बल के विश्व आपके उनमें घूमने पर समान ज्यामिति और भौतिकी को बनाए रखते हैं। मार्बल पर्यावरण में प्रशिक्षण प्राप्त एक रोबोट एक ही शेल्फ को अलग-अलग कोणों से देख सकता है और उसी स्थिति में उसी वस्तुओं को ढूंढ सकता है।

मिशन के पीछे का पैसा

फरवरी 2026 में वर्ल्ड लैब्स ने पिछले $230 मिलियन के राउंड के आधार पर $1 बिलियन जुटाए। निवेशकों की सूची में AMD, Autodesk, NVIDIA और Fidelity शामिल हैं।

कुल फंडिंग के $1.23 बिलियन के साथ, वर्ल्ड लैब्स एक ऐसी AI स्टार्टअप है जो बड़े भाषा मॉडल के प्रतिस्पर्धा से बजाय स्पेशल इंटेलिजेंस पर केंद्रित है, जो हाल के समय में समाचारों को घेरे हुए है।