لی فیفی ٹیم نے 'ورلڈ مدل' کے تصور کی وضاحت کی، سورا کو رینڈرر کے طور پر درج کیا گیا

3 جون 2026 کو، ورلڈ لیبز ٹیم نے اسٹنفورڈ یونیورسٹی کے پروفیسر لی فیفی کے ساتھ مل کر ایک مفہومی تجزیہ کا مقالہ جاری کیا، جس کا عنوان بے نقاب تھا اور اس میں کوئی تزئین نہیں تھی: "دنیا کے ماڈلز کا فنکشنل طبقہ بندی"۔ مقالے کی پہلی جملہ صنعت کے ایک متفقہ رجحان کو ختم کرتا ہے: "دنیا کے ماڈلز آج کے صنعتِ ذہانت کا سب سے اہم اور سب سے زیادہ غلط استعمال ہونے والا اصطلاح ہے۔"

اس جملے کا حوالہ، جو بھی AI صنعت پر نظر رکھتے ہیں، وہ اسے نہایت عادی جانتے ہیں۔

فروری 2024 میں، OpenAI نے ویڈیو جنریشن ماڈل Sora جاری کیا، جس کی ٹیکنیکل رپورٹ کا عنوان صاف طور پر “ویڈیو جنریشن ماڈل جیسے دنیا کا سیمولیٹر” تھا۔ اس وقت NVIDIA کے روبوٹکس ڈائریکٹر Jim Fan نے LinkedIn پر ایک تبصرہ چھوڑا جسے بعد میں بار بار حوالہ دیا گیا: Sora بنیادی طور پر ایک “صرف بلا عمل کو واحد ایکشن کے طور پر اجازت دینے والا دنیا کا ماڈل” ہے۔ دوسری طرف، علنا رپورٹس کے مطابق، Tesla AI ٹیم نے علناً اپنے مکمل خودکار ڈرائیو سسٹم کے پیشگوئی کمپوننٹس کو “دنیا کا ماڈل” یا “دنیا کا سیمولیٹر” کہا ہے۔ گیم انجن، 3D جنریشن ٹولز، اور جسمانی ذہانت ماڈلز جیسے مختلف پروڈکٹس اور ٹیکنالوجیز کو ایک ہی باکس میں ڈال دیا گیا اور ایک ہی لیبل لگا دیا گیا۔

ایک ویڈیو جنریٹر، ایک خود مختار گاڑی کی پیش بینی نیٹ ورک، ایک روبوٹ کنٹرول ماڈل، ایک فزیکل انجن، ان کا کیا مشترکہ نقطہ ہے؟ تقریباً کوئی نہیں۔ لیکن ان سب کو "دنیا کا ماڈل" کہا جاتا ہے۔

دو سال سے زائد عرصے تک جاری رہنے والے اس مفہومی ادھورے پن کو آخرکار کسی نے نظام مند طریقے سے واضح کرنے کی کوشش کی۔ لی فیفی ٹیم نے اس بار نیا ماڈل جاری نہیں کیا، نہ ہی نیا بینچ مارک جاری کیا، نہ ہی کوئی مصنوعات کی خصوصیات دکھائیں۔ انہوں نے ایک زیادہ بنیادی بات کی: انہوں نے جزوی طور پر قابل مشاہدہ مارکوف فیصلہ عمل کے نظریاتی آغاز پر واپس جاکر، تمام بازار میں "دنیا کے ماڈلز" کہلائے جانے والے نظاموں کو ایک ہی شناختی حلقوں کے تین مختلف فنکشنل پروجیکشنز میں تبدیل کر دیا۔

تینوں پروجیکشنز درج ذیل ہیں: رینڈرر، سیمیولیٹر، پلانر۔ ورلڈ لیبس کے طبقہ بندی فریم ورک کے تحت، سورا اور اس کے مترادف ویڈیو جنریشن ماڈلز، رینڈرر کی قسم میں آتے ہیں۔

ایک اصطلاح ایسے متضاد معانی کو کیسے سمو سکتی ہے

اس بھنڈار کی جڑ کو سمجھنے کے لیے، ایک زیادہ بنیادی سوال پر غور کرنا ضروری ہے: جب ایک کمپنی کہتی ہے کہ "ہم دنیا کے ماڈل پر کام کر رہے ہیں"، تو وہ کیا کہنا چاہتی ہے؟

اوپن اے آئی کے لیے، سورا کا مقصد "فیزیکل دنیا کو سمجھنا اور ویڈیو میں پیش کرنا" ہے۔ ٹیکنیکل رپورٹ کے مطابق، سورا بڑی مقدار میں ویڈیو ڈیٹا کے احصائی قوانین سے سیکھ کر، ویژول کامن سینس کے مطابق تصاویر تخلیق کر سکتا ہے: کپ کے زمین پر گرنے پر ٹوٹ جاتا ہے، کاغذ کا طیارہ ہاتھ چھوڑنے پر اڑتا ہے، اور انسان چلتے وقت اپنے پاؤں کو متبادل طور پر حرکت دیتا ہے۔ یہ تصاویر "فزکس سمجھتی" لگتی ہیں۔

ٹیسلا کے لیے، "ویلڈ مڈل" FSD سسٹم کا ایک نیورل نیٹ ورک ہے جو راستے کے شرکاء کے مستقبل کے کچھ سیکنڈز کے اندر حرکت کے راستے کا پیشن گوئی کرتا ہے۔ اسے راستہ منصوبہ بندی ماڈیول کو محفوظ ڈرائیونگ فیصلے لینے کے لیے درست 3D پوزیشن، سپیڈ اور اورینٹیشن فراہم کرنی ہوتی ہے۔ یہ ماڈل پکسلز کا اخراج نہیں کرتا، بلکہ اس کا اخراج ویکٹرز اور احتمالات کی تقسیم ہوتا ہے۔

روبوٹ کمپنیوں کے لیے، "دنیا کا ماڈل" وہ اندر کا محاکمہ ہے جو مکینیکل ہاتھ کو یہ پیش بینی کرنے دیتا ہے کہ "اگر میں اس گلاس کو 5 سینٹی میٹر بائیں طرف دھکیلوں، تو کیا وہ گر جائے گا؟" اسے اشیاء کے خصوصیات، رابطہ کی مکینیکس اور استحکام کو سمجھنا ہوتا ہے، اور اس کا نتیجہ ایک حرکت کی ممکنہ ہونے کی تشخیص ہوتا ہے۔

تین قسم کی کمپنیوں کے اہداف بالکل مختلف ہیں۔ ویڈیو جنریشن کمپنیاں پکسل فیدلٹی پر توجہ دیتی ہیں، خود کار گاڑیوں کی کمپنیاں فزیکل اسٹیٹ پرڈکشن کی درستگی پر توجہ دیتی ہیں، اور روبوٹکس کمپنیاں ایکشن کے نتائج کی قابل پیش بینی پر توجہ دیتی ہیں۔ وہ سب "دنیا کے ماڈل" بنارہے ہیں، لیکن وہ بالکل ایک ہی چیز نہیں کر رہے۔

ورلڈ لیبز نے اپنے مضمون میں مسئلے کو براہ راست نشانہ بنایا: ان نظاموں کو ایک ہی نام دیا گیا ہے کیونکہ وہ حقیقت میں "دنیا کو سمجھنے" کے ایک ایک پہلو کو پورا کرتے ہیں۔ لیکن ان میں سے ہر ایک صرف مکمل جانچ کے دائرے کا ایک حصہ پورا کرتا ہے، جبکہ انہیں مارکیٹنگ کے الفاظ، میڈیا کی رپورٹنگ اور سرمایہ کاروں کے روایات نے مکمل دنیا کے ماڈل کے طور پر پیش کر دیا ہے۔

دوسرا محرک تصوراتی بھٹکاوٹ ہے، جس میں اصطلاحات کا تناؤ شامل ہے۔ "دنیا کا ماڈل" کا لفظ خود بخود ایک وسیع کہانی کا حامل ہے، جو "ویڈیو جنریشن ماڈل" یا "ویڈیو پیشگوئی ماڈل" کے مقابلے میں زیادہ تصوراتی جگہ رکھتا ہے اور زیادہ بلند قیمتیں اور سرمایہ کاری کے کہانیوں کو سہارا دیتا ہے۔ جب تکنیکی صلاحیتیں عوامی توقعات کے مطابق نہ ہوں، تو تصور کو تبلیغی آلہ بنانا لازمی ہو جاتا ہے۔

1960 کی دہائی میں مکمل "دنیا کا ماڈل" کیا ہونا چاہیے؟

وورلڈ لیبس کا طبقاتی فریم ورک ایک ظاہری طور پر پرانے نظریے پر مبنی ہے: جزئی طور پر قابل مشاہدہ مارکوف فیصلہ عمل۔

یہ فریم ورک ایک ایجنٹ اور ماحول کے درمیان مکمل انٹرایکشن سائکل کو ظاہر کرتا ہے۔ ایجنٹ کسی ماحول کی حالت میں ہوتا ہے، وہ ایک عمل کرتا ہے، جس سے ماحول کی حالت بدل جاتی ہے، ایجنٹ اپنے سینسرز کے ذریعے جزوی مشاہدہ حاصل کرتا ہے، جو داخلی حالت کو اپڈیٹ کرتا ہے، اور اپڈیٹ شدہ شناخت اگلے عمل کو ہدایت دیتی ہے۔ یہ سائکل دہرایا جاتا رہتا ہے۔

اس فریم ورک کے تحت، "عالمی ماڈل" کی مکمل فنکشنلیٹی تین مراحل پر مشتمل ہونی چاہیے: حالت سے مشاہدہ بنانا (انسانی آنکھوں یا سینسرز کے ذریعہ حاصل کیے گئے پکسلز، پوائنٹ کلاؤڈ وغیرہ)، ایکشن اور موجودہ حالت سے اگلی حالت کا اندازہ لگانا (فزیکل تبدیلیوں کا پیش گوئی)، اور مشاہدہ اور مقصد سے ایکشن بنانا (فیصلہ سازی اور منصوبہ بندی)۔

زبانی ماڈل متن کے تسلسل کے احصائی قوانین سیکھتے ہیں، جبکہ عالمی ماڈل فضا اور وقت کے احصائی خصوصیات سیکھتے ہیں۔ روشنی مختلف سطحوں پر کیسے منعکس ہوتی ہے، اشیاء وزن کے اثر میں کیسے حرکت کرتی ہیں، اور جامد جسم کے تصادم کے بعد توانائی کیسے منتقل ہوتی ہے، یہی عالمی ماڈل کو پکڑنا ہوتا ہے۔

ورلڈ لیبز ٹیم نے مضمون میں اشارہ کیا ہے کہ موجودہ بازار پر تمام "عالمی ماڈل" کہلائے جانے والے سسٹم، اصل میں صرف اوپر والے مکمل حلقوں میں سے ایک فنکشنل مرحلے کی تصویر ہیں۔ کچھ سسٹم صرف "حالت سے مشاہدے تک" کا رینڈر کرتے ہیں، کچھ صرف "اقدام سے اگلی حالت تک" کا حالت کا استنباط کرتے ہیں، اور کچھ صرف "مشاہدے سے اقدام تک" کا منصوبہ بندی کرتے ہیں۔ ان میں سے ہر ایک حلقوں کا ایک تیرہ لے لیتا ہے، لیکن انہیں مکمل دائرے کا نام دے دیا جاتا ہے۔

اس تجزیاتی فریم ورک کی قیمت یہ ہے کہ یہ ایک ایسا موازنہ کا نظام فراہم کرتا ہے جو مارکیٹنگ کے الفاظ سے آگے جاتا ہے۔ چاہے کوئی کمپنی اپنے پروڈکٹ کو کتنی بھی اچھی طرح سے پیش کرے، اسے صرف POMDP سائکل میں واپس رکھ دیں، دیکھیں کہ یہ کیا ان پٹ کرتا ہے، کیا آؤٹ پٹ دیتا ہے، اور کون سا حصہ کم ہے، تو اس کی صلاحیتوں کا حدود واضح ہو جائے گا۔

رینڈرر، سیمولیٹر، اور پلانر — تینوں پروجیکشن کی صلاحیتوں کی سرحدیں

ورلڈ لیبس کے طبقہ بندی میں، پہلی شریط کو "رینڈرر" کہا جاتا ہے۔ اس کا مرکزی مقصد انسانی بصری ادراک کے لیے اعلیٰ بھروسہ مند پکسل آؤٹ پٹ تیار کرنا ہے۔ ان پٹ کسی ماحول کی حالت کا نمائندہ ہوتا ہے (جو متن کی تفصیل، 3D منظر کے پیرامیٹرز یا امریز کوڈنگ ہو سکتے ہیں)، اور آؤٹ پٹ لگاتار فریمز کا سلسلہ ہوتا ہے۔

رینڈرر کی بہتری کا مقصد فزیکل درستگی کے بجائے ویژوئل ریلزیزم ہے۔ ورلڈ لیبس کے مضمون میں واضح طور پر کہا گیا ہے کہ رینڈرر کے ذریعہ تخلیق کردہ عمارتیں “ڈھاݨے پڑنے والی” ہو سکتی ہیں، کیونکہ یہ حقیقی ساختی مکینکس کے مساوات کو حل نہیں کرتا؛ اس کے ذریعہ تخلیق کردہ مائع کا اچھلنا حقیقی لگ سکتا ہے، لیکن مائع کا حجم، بہاؤ کی شرح اور تصادم کی طاقت حقیقی فزیکل مقداروں سے بالکل مطابقت نہیں رکھتی۔ اس لیے اس قسم کے ماڈلز کا استعمال تعمیراتی ڈیزائن، روبوٹکس تربیت، یا فزیکل طور پر درست محاکمہ کی ضرورت والے کاموں کے لیے نہیں کیا جا سکتا۔

گوگل کا جینی 3، مختلف ٹیکسٹ توس ویڈیو ماڈلز، اور تقریباً تمام AI ویڈیو جنریٹنگ ٹولز اس زمرے میں آتے ہیں۔ سورا بھی اس میں شامل ہے۔

دوسرا قسم "سیمولیٹر" ہے۔ اس کا مرکزی مقصد صرف دیکھنے کے لیے تصویریں بنانا نہیں، بلکہ بعد کے حسابات کے لیے درست حالتیں پیدا کرنا ہے۔ داخلی اعداد و شمار موجودہ ماحول کی حالت اور باہری طاقتوں (یا اقدامات) ہوتی ہیں، اور باہر نکلنے والی حالتیں حقیقی دنیا کے قوانین کے مطابق فزکس اور جیومیٹری کے لحاظ سے درست ہوتی ہیں۔ سیمولیٹر کی پیدا کردہ حالتیں تنش کا تجزیہ، توانائی کے استعمال کا حساب، اور تصادم کا پتہ لگانے کے لیے استعمال کی جا سکتی ہیں، اور یہ رینڈرر کے لیے ان پٹ کے طور پر بھی استعمال ہو سکتی ہیں تاکہ وژوئلائزیشن کے لیے تصویریں بنائی جائیں، لیکن اس کا مرکزی فائدہ حالت کی قابل حساب ہونے میں ہے۔

NVIDIA Omniverse اس قسم کے نظام کا ایک مثالی نمونہ ہے۔ یہ AI اصل ماڈل نہیں بلکہ روایتی فزیکس انجن اور AI تیز کی گئی کمپوٹنگ کو ملا کر بنایا گیا ڈیجیٹل ٹوwin پلیٹ فارم ہے۔ World Labs نے مضمون میں جائزہ دیا کہ سیمیولیٹر رینڈرنگ اور منصوبہ بندی کے درمیان پل کا کام کرتا ہے، لیکن اعلی معیار کے 3D فزیکس اینوٹیشن ڈیٹا کی کمی اہم رکاوٹ ہے۔ World Labs کے مضمون کے مطابق، اس قسم کے ماڈلز کو تربیت دینے کے لیے درکار ڈیٹا، انٹرنیٹ پر دستیاب ویڈیو ڈیٹا سے کئی درجہ بڑھ کر کم ہے۔

تیسری قسم "پلانر" ہے۔ اس کا ان پٹ مشاہدہ ڈیٹا (کیمرہ فریم، لیزر ریڈار پوائنٹ کلاؤڈ، ٹیکٹائل سینسر کے ریڈنگز وغیرہ) اور ہدایات ہوتے ہیں، اور آؤٹ پٹ اگلا کیا عمل کرنا ہے اس کا تعین کرتا ہے۔ VLA (ویژل-لینگویج-ایکشن) ماڈلز اور ورلڈ ایکشن ماڈلز دونوں اس قسم میں آتے ہیں۔

تین اقسام کے درمیان فرق صرف تکنیکی راستوں کے معمولی فرق نہیں، بلکہ بنیادی فنکشنل تقسیم ہے۔ رینڈرر پکسلز صرف انسانوں کے لیے پیدا کرتا ہے، سیمیولیٹر حالتیں مشینوں کے لیے پیدا کرتا ہے، اور پلانر ایکشنز ایکزیکیوٹرز کے لیے پیدا کرتا ہے۔ ایک سسٹم ایک ساتھ کئی صلاحیتیں رکھ سکتا ہے، لیکن جب زیادہ تر "عالمی ماڈل" کہلائے جانے والے سسٹمز صرف رینڈرنگ ہی کرتے ہیں، تو "رینڈرنگ" کو "دنیا کو سمجھنا" کے مساوی قرار دینا ایک سنگین认知 مطابقت کا مسئلہ ہے۔

دو سال تک جاری بحث، کیا سورا ایک ورلڈ مدل ہے

فبروری 2024 میں، OpenAI نے Sora جاری کیا، جس کی ٹیکنیکل رپورٹ کا عنوان براہ راست "ویڈیو جنریشن ماڈل جیسے دنیا کا سیمولیٹر" تھا۔ اس الفاظ نے فوراً اکادمیک دنیا اور ڈویلپر کمیونٹی میں شدید بحث کا آغاز کر دیا۔

حاصل کنندگان کا خیال ہے کہ سورا کے جنریٹ کردہ ویڈیوز میں 3D فضا کی ایک جانچ، اشیاء کی مستقلیت اور فزکل انٹرایکشن کی کچھ جان بوجھ کر سمجھ شامل ہے۔ ایک کاٹا ہوا برگر دانتوں کے نشانات چھوڑتا ہے، اور ایک کتا برف میں دوڑتا ہے تو برف کے چھینٹے اُڑتے ہیں، یہ تفصیلات ظاہر کرتی ہیں کہ ماڈل نے کچھ فزکل قوانین سیکھ لیے ہیں۔

مخالفین کا مرکزی دلیل ورلڈ ماڈل کی تقویتی سیکھنے کے شعبے میں متعارف کرائی گئی معمولی تعریف سے آتا ہے: ایک ورلڈ ماڈل کو اقدامات کے بنیاد پر حالت کے منتقلی کا پیش گوئی کرنا چاہیے۔ یعنی، موجودہ حالت اور ایک اقدام کے ان پٹ کو دیکھتے ہوئے، ماڈل کو اقدام کے بعد اگلی حالت کا اخراج کرنا چاہیے۔ سورا اسے نہیں کر سکتا۔ صارفین سورا کو "بائیں طرف سے اس کپ کو دور کر دو" نہیں کہہ سکتے اور پھر دیکھ سکتے ہیں کہ کپ گرے گا یا نہیں، کس طرف گرے گا، اور ٹکڑے کہاں اڑ جائیں گے۔

جیم فان کا جائزہ اس تضاد کو درست طور پر اُٹھاتا ہے: "Sora بنیادی طور پر ایک عالمی ماڈل ہے، صرف اس لیے کہ یہ صرف ایک منفرد ایکشن کے طور پر نو-آپ (no-op) کو ہی سپورٹ کرتا ہے۔" اس کا مطلب یہ ہے کہ Sora واقعی ماحول کے وقت کے ساتھ تبدیل ہونے کا تخمینہ لگا رہا ہے، لیکن یہ تبدیلی کوئی بیرونی مداخلت نہیں کرتی، بلکہ ویڈیو ڈیٹا میں موجود فطری علّت و معلول کے سلسلے کے مطابق ہی پیش رفت کرتی ہے۔ یہ تعاملی استدلال نہیں کر رہا، بلکہ بے حرکت مشاہدات کے سلسلے کو جاری رکھ رہا ہے۔

ریڈیٹ کے r/MachineLearning سب ریڈیٹ پر، کئی تقویتی سیکھنے کے محققین نے زیادہ تیز انتقاد کیا: ایکسشن کے بنیاد پر حالت کے انتقال کا پیش گوئی نہیں کر سکنے والا نظام، دنیا کا ماڈل نہیں کہلا سکتا، صرف ویڈیو پیش گوئی ماڈل کہلا سکتا ہے۔

ورلڈ لیبس کا طبقاتی فریم ورک اس بحث کا ایک فیصلہ کن جواب فراہم کرتا ہے۔ POMDP سائکل میں، ایکشن حالت کے تبدیل ہونے کا اہم ان پٹ ہے، اور اس ان پٹ کے بغیر کوئی سسٹم صرف مکمل شناختی سائکل کے "观测 تخلیق" مرحلے کا ایک پروجیکشن ہے۔ سورا ایک رینڈرر ہے، مکمل عالمی ماڈل نہیں، اور بالکل بھی عالمی سیمولیٹر نہیں۔

لیکن اس کا مطلب یہ نہیں کہ سورا کی کوئی قیمت نہیں ہے۔ رینڈرر ایک مختلف مسئلہ کو حل کرتا ہے: انسانی بصری توقعات کے مطابق تصاویر کیسے تخلیق کی جائیں۔ یہ مسئلہ خود بخود بہت مشکل ہے اور اس میں بہت بڑی تجارتی قیمت ہے۔ مسئلہ یہ ہے کہ رینڈرنگ کی صلاحیت کو "دنیا کو سمجھنے" کی صلاحیت کے طور پر پیش کرنا، ٹیکنالوجی کے فیصلہ سازوں اور سرمایہ کاروں کو غلط فہمی میں ڈال دیتا ہے اور یہ سمجھنے لگتے ہیں کہ ان ماڈلز میں فزکل استدلال یا جسمانی تعامل کی صلاحیت پیدا ہو چکی ہے۔

مفهوم کی وضاحت کا صنعتی فائدہ

"دنیا کا ماڈل" کی تعریف کی سرحدوں کو واضح کرنا ایک اکادمیک الفاظ کی لڑائی نہیں ہے۔ یہ تکنیکی منتخب کرنے، سرمایہ کاری کے فیصلوں اور عوام کے AI کی صلاحیتوں کے بارے میں سمجھ کے سطح پر ب без تاثر ڈالتا ہے۔

ایک ایسی تیاری کمپنی کے لیے جو اپنے روبوٹ تربیت کے لیے کسی “دنیا کے ماڈل” کو استعمال کرنے کا فیصلہ کر رہی ہے، یہ سمجھنا ضروری ہے کہ یہ ماڈل رینڈرر ہے، سیمولیٹر ہے یا پلانر — تاکہ ملاں مالیاتی نقصان سے بچا جا سکے۔ صرف ویڈیو فریمز پیدا کرنے والا ماڈل، چاہے وہ کتنے ہی حقیقی کیوں نہ لگ رہا ہو، اشیاء پر لگنے والے طاقتوں، حرکت کے راستوں اور تصادم کے نتائج کے درست حساب لگانے کا متبادل نہیں ہو سکتا۔

سرمایہ کار اداروں کے لیے تین قسموں کے پروجیکشنز کو الگ کرنا اس بات کو سمجھنے کی اجازت دیتا ہے کہ پروجیکٹ کس ٹیکنالوجی سٹیک کے موقع پر ہے۔ ایک ایسی اسٹارٹ اپ جو خود کو "وورلڈ مڈل" کہتی ہے لیکن اس کا پروڈکٹ بنیادی طور پر ایک رینڈرر ہے، اس کا مقابلہ ویڈیو جنریشن کمپنیوں سے ہوگا، نہ کہ ڈیجیٹل ٹوئن پلیٹ فارمز یا روبوٹ کنٹرول مڈلز سے۔ یہ براہ راست بازار کے سائز کے اندازے اور مقابلہ کرنے والی کمپنیوں کے انتخاب کو طے کرتا ہے۔

علمی دنیا کے لیے، واضح طبقہ بندی قابلِ موازنہ بنچ مارکس کے قیام کی پیش رفت ہے۔ اگر "دنیا کا ماڈل" کا لفظ مزید عام ہوتا رہا، تو محققین کے لیے یہ طے کرنا مشکل ہو جائے گا کہ کیا ترقی ہے اور کیا کردار ہے، اور مُجتہدِانہ جائزہ ادراک کی بنیاد پر ہوگا۔

ورلڈ لیبز نے مضمون میں بھی اشارہ کیا کہ مفہوم کی وضاحت کا مقصد تضاد پیدا کرنا نہیں ہے۔ مستقبل کی راہ گزرنے والی تینوں قسموں کے ادغام کی طرف جائے گی۔ ایک ایسا ماڈل جو کپ کے فزیکل خصوصیات کو بالکل سمجھتا ہو، اسے اس کی نظری شکل کو رینڈر کرنا، اس کے گرنے کے فزیکل عمل کو سیمیولیٹ کرنا، اور مکینیکل ہاتھ کو اسے مستحکم طریقے سے پکڑنے کی منصوبہ بندی کرنا چاہیے۔ لیکن ٹیکنالوجی اس مرحلے تک پہنچنے سے پہلے، ادغام کے خواب دیکھنے کے بجائے، ان کی الگ الگ حدود کو سمجھنا زیادہ عملی ہے۔

ورلڈ لیبز کے مضمون کے مطابق، NVIDIA Omniverse جیسے سیمولیٹرز اور ڈیجیٹل ٹوئن تکنالوجیاں فیکٹریوں، اسٹوریج سینٹرز، اور سپلائی چین جیسے شعبوں میں ایک ٹریلین ڈالر سے زائد کے ممکنہ مارکیٹ کو ہدف بنارہی ہیں۔ یہ عدد فروخت کرنے والے اداروں کے اپنے جائزے پر مبنی ہے، اور یہ کہ مارکیٹ کب تک اس سایز تک پہنچے گی، اس بات پر منحصر ہے کہ کیا سیمولیٹرز اعلیٰ معیار کے 3D فزیکل ڈیٹا کی کمی کے بند راستے کو عبور کر پائیں گے۔

اُس وقت کے AI صنعت کے لیے، سب سے اہم سمجھ یہ ہو سکتی ہے کہ واقعی ویڈیو بنانے کا مطلب یہ نہیں کہ فزیکل دنیا کو سمجھا جا رہا ہے؛ اور "دنیا کا ماڈل" کہلائے جانے کا مطلب یہ نہیں کہ واقعی دنیا کا محاکمہ ہو رہا ہے۔ مارکیٹنگ کی زبان کو عبور کرکے، ایک سسٹم کو POMDP سائکل میں کیا ان پٹ ملتا ہے، کیا آؤٹ پٹ پیدا ہوتا ہے، اور کون سا حصہ کم ہے، اس کا جائزہ لینا ٹیکنالوجی کی صلاحیتوں کی حدود کا سب سے ایماندارانہ جائزہ ہے۔