یہ مضمون جسمانی ذہانت کے شعبے میں عالمی ماڈل کے ترقی کے راستوں پر بحث کرتا ہے۔ موجودہ دور میں دو راستے ہیں: سلیکون ویلی کے "استبدال پسند" افراد WAM کے ذریعے VLA کو مکمل طور پر متبادل بنانے کی کوشش کر رہے ہیں، جبکہ گھریلو اکثریت کے "اتحاد پسند" افراد عالمی ماڈل کو VLA کی صلاحیتوں کا مکمل کرنے والا عنصر سمجھتے ہیں۔ مضمون کہتا ہے کہ عالمی ماڈل تین قسم کے بُلبے میں مبتلا ہیں — تعریف کا عام ہونا، حسابی طاقت کا اعلیٰ درجہ، اور عملی طور پر لاگو کرنا مشکل ہونا۔ مضمون کا خیال ہے کہ اصل عالمی ماڈل کو حقیقی کاروباری سائکل میں ڈالا جانا چاہئے تاکہ مشینیں فزیکل دنیا میں حرکت کر سکیں، صرف تصویروں کو واقعی بنانے کے لیے نہیں۔

مضمون کے مصنف، ذریعہ: ایپریوری لیب

VLA سے WAM تک، ایک زیادہ بڑھائی گئی انقلاب اور کم سمجھی گئی ترقی۔

گزشتہ نصف سال میں، جسمانی ذہانت کے شعبے میں دو بڑے عوامی جشن ہوئے۔ ایک اسکرین سے تعلق رکھتا تھا: Sora سے لے کر مختلف ویڈیو جنریشن ماڈلز تک نے لگاتار اپنی طاقت دکھائی، ایک پانی کے گلاس کو اُلٹانے کے تفصیلات، اور مسلسل فضا میں انسانوں کی حرکت نے "AI کا حقیقت کو دوبارہ تشکیل دینا" کا ناٹک چوٹی پر پہنچا دیا، اور "دنیا کا ماڈل آ گیا ہے" کے چیخے اٹھتے رہے۔ دوسرا قبرستان سے تعلق رکھتا تھا: نوویدا کے سربراہ تحقیقی سائنسدان جم فین نے ایک Meme تصویر شیئر کی جس میں WAM (دنیا کا ایکشن ماڈل) VLA (بصری - زبانی - ایکشن ماڈل) کے قبرستان کے سامنے کھڑا ہے، جس نے "VLA مر گیا، دنیا کا ماڈل زندہ رہے" کا اعلان کرتے ہوئے راستوں کے درمیان مقابلہ کو سامنے لایا۔ (اس مضمون میں صرف جسمانی ذہانت کے دنیا کے ماڈل پر بحث کی جائے گی)

دو تقریبات ایک ہی مرکزی لفظ کو شیئر کرتی ہیں: ورلڈ ماڈل۔

لیکن اس کا متناقض پہلو یہ ہے کہ جتنے زیادہ افراد جسمانی ذہانت کے شعبے میں اس کی بات کرتے ہیں، اس کا خاکہ اتنی ہی زیادہ ادھم ہوتا جا رہا ہے؛ کچھ لوگ واقعی ویڈیوز بنانے کو دنیا کا ماڈل کہتے ہیں، کچھ روبوٹ کے حرکات کے پیش گوئی کو دنیا کا ماڈل کہتے ہیں، اور کچھ خود مختار گاڑیوں کے شبیہہ سازی کے ماحول کو بھی دنیا کا ماڈل کہتے ہیں۔ ایک ہی تصور کے تحت، بالکل مختلف ٹیکنالوجی کے مقاصد اور تجارتی تقاضے شامل ہیں۔

دُنیا کے ماڈل کا سب سے بڑا خطرہ کبھی “غیر واضح تعریف” نہیں ہے، بلکہ یہ ہے کہ سب کوئی اس کی وہ صرف ایک سطح کو اپنا رہے ہیں جو سب سے زیادہ نمایاں ہے اور سب سے زیادہ وائرل ہونے کا امکان رکھتی ہے، اور اسی کے ذریعے اس کی مجموعی قیمت کو تعریف کر رہے ہیں۔ جب “دنیا بنانے” کی دکھاوٹ، “دنیا استعمال کرنے” کے اصل مقصد کو دبانے لگے، تو دنیا کے ماڈل کو وہ لوگ جو سب سے بہتر کہانیاں سناتے ہیں، اس کے اصل مقصد — فزیکل AI کے حقیقی فزیکل مناظر — سے دور لے جا رہے ہیں۔

عالمی ماڈل کو بالکل "دنیا بنانے" کی صلاحیت درکار ہے۔ ان حیرت انگیز جنریٹو ڈیموں کے بغیر، یہ عوام اور سرمایہ کاروں کے دائرے میں اتنی جلدی نہیں آ سکتا تھا۔ لیکن فزیکل AI صنعت کے لیے، ایک دنیا بنانا صرف مسئلے کا آغاز ہے۔ آخرکار اس دنیا کو کنٹرول، تصدیق اور درست کیا جانا چاہیے، تاکہ وہ مشین کے اقدامات سے پہلے ایک پری-سیم ڈیسک اور فیصلہ سازی کا بنیادی ذریعہ بن جائے۔ ویڈیو جنریشن عالمی ماڈل کے دروازے کو کھول سکتی ہے، لیکن اسے حقیقی فزیکل دنیا تک پہنچانے کا سفر مکمل نہیں کر سکتی۔

ہمیشہ نئے تصورات اور نئے روایات کی کمی نہیں ہوتی، جسمانی ذہانت ضرور اپنا جامع راستہ بنائے گی۔ اس وقت، کیا یہ راستہ VLA کہلائے، WAM کہلائے، یا کوئی اور نام رکھے، شاید اس کا کوئی فرق نہیں رہے گا۔

کیونکہ یہ ہماری زندگی میں گھل چکا ہے۔

عالمی ماڈل بالکل "تصویر بنانے" کے برابر نہیں ہے

کیا آپ سورا کو یاد کرتے ہیں؟

اسی سال، جب OpenAI نے Sora جاری کیا، تو رپورٹ کا عنوان "ویڈیو جنریشن ماڈلز کے طور پر دنیا کے سیمولیٹرز" تھا، جس میں یہ دعویٰ کیا گیا کہ ویڈیو جنریشن ماڈلز "فزیکل دنیا کے جامع سیمولیٹر" تک کا راستہ فراہم کرنے کے قابل ہو سکتے ہیں۔ Sora نے اس وقت جو لمبے ویڈیوز دکھائے، ان میں کیمرہ موشن، لوکل 3D کنسسٹنسی اور آبجیکٹ سٹیٹ مینٹیننس کی صلاحیتیں عام عوام کو پہلی بار واضح طور پر محسوس کرانے والی تھیں کہ AI اصل میں "دنیا بنانے" کی تربیت لے رہا ہے۔ متن اور تصاویر کے مقابلے میں، ویڈیو انسان کے "دنیا" کے بارے میں فطری احساس کے ساتھ زیادہ مطابقت رکھتا ہے — وقت، جگہ، حرکت اور مسلسل تبدیلیوں کے ساتھ، جس سے لوگوں کو یہ غلط فہمی ہوتی ہے کہ ماڈل نے فزیکل قوانین کو سمجھ لیا ہے۔

یہ صلاحیتیں شو کے لیے قدرتی طور پر مناسب ہیں اور سرمایہ کاروں اور میڈیا کی توجہ کو حاصل کرنے میں سب سے آسان ہیں۔ وقت کے ساتھ، "ویڈیو جنریشن = ورلڈ مڈل" کئی لوگوں کے لیے ڈیفالٹ سمجھے جانے والے انٹری پوائنٹ بن گئی۔

یہ بالکل غلط نہیں ہے۔ ڈیجیٹل نیٹو سینریو میں، ویڈیو جنریشن کا راستہ خود بخود کارآمد حل ہے، اور اب تک بہت ساری یونیکورن کمپنیاں ظاہر ہو چکی ہیں۔ ان کے پروڈکٹس گیمنگ صنعت میں ریل ٹائم میں متحرک مناظر بنانے کے لیے استعمال ہوتے ہیں، جس سے آرٹسٹک لاگت کم ہوتی ہے اور کھلاڑیوں کی آزادی بڑھتی ہے؛ جبکہ ایئر اسپیس اور اعلیٰ ت制造 جیسے اعلیٰ غلطی کی لاگت والے شعبوں میں، اس کا استعمال ٹیسٹنگ کے حدود کو وسعت دینے اور شبیہہ سازی کے مناظر کو متنوع بنانے کے لیے کیا جاتا ہے، جس کا واضح تجارتی فائدہ بھی ہے۔ اس وقت بنائے جانے والے “دنیا” کا مقصد صرف مشاہدہ کرنے والوں کے لیے تصویر نہیں ہوتا، بلکہ یہ ایک انٹرایکٹو، غلطیوں کے لیے آزمائش کے قابل محاکہ ماحول ہوتا ہے۔

حقیقی غلط فہمی اس وقت ہوتی ہے جب عبوری سطح پر، عالمی ماڈل جسمانی ذہانت سے ملتا ہے، بہت سے لوگ یہ فرض کرتے ہیں کہ اگر ماڈل ایک مسلسل اور واقعی ڈیجیٹل دنیا بنانے میں کامیاب ہو جائے، تو اس کا مطلب ہے کہ وہ فزیکل دنیا کی سمجھ، پیشگوئی اور عمل کی صلاحیت حاصل کر چکا ہے۔

بیجنگ زہیوئن انسانی ذہانت انسٹیٹیوٹ کے ڈائریکٹر وانگ چونگیوئن کا اس بارے میں جائزہ بہت واضح ہے: جس ویڈیو جنریشن ٹیکنالوجی کو اب عام طور پر دنیا کے ماڈل کے نمائندہ کے طور پر دیکھا جا رہا ہے، اس کا اصل مطلب صرف پکسل لیول پر دنیا کا شبیہہ بنانا ہے۔ "ویڈیو جنریشن ماڈل ایک گروہ کے سوئن کو آسمان میں اڑتے ہوئے طیارے کے ساتھ اُڑتے ہوئے بناسکتا ہے، کیونکہ اس کے تربیتی ڈیٹا میں بہت سارے سائنس فکشن فلموں کا مواد شامل ہے، اور اس کا مقصد کبھی بھی حقیقی فزکل دنیا کے قوانین کو دوبارہ بنانا نہیں ہے۔"

ایک کلاسیکل جسمانی صورتحال فرق کو واضح کر سکتی ہے: کپ پکڑنا۔ ماڈل مختلف نظاروں سے ایک جیسا کپ جنریٹ کر سکتا ہے، جو بصری ایکریت ہے، اور یہ وہ چیز ہے جو وہ ویڈیو ڈیٹا سے سیکھ سکتا ہے؛ لیکن جب آپ اسے چھوتے ہیں تو ترکیب کتنا ہوتا ہے؟ مواد متعلقہ پکڑ کے دباؤ کو برداشت کر سکتا ہے؟ جب کپ میز پر گرتا ہے، تو کیا ماڈل صرف یاد رکھتا ہے کہ "کپ عام طور پر میز پر ہوتا ہے"، یا اس نے جاذبیہ، حمایتی طاقت اور رابطہ کی پابندیوں کو حقیقت میں سمجھ لیا ہے؟ پیچیدہ مکانیکل ردعمل، رابطہ کے بعد کی حالت میں تبدیلی، اور حقیقی فزکل قوانین کے سببی پابندیاں، صرف ایک جنریٹڈ ویڈیو سے کور نہیں ہوتیں۔ جب ایک خودکار ڈرائیونگ ٹریننگ چین میں بغیر جانچ کے ایک جانبی طور پر چلنے والی گاڑی شامل کردی جائے، تو حقیقی فزکل دنیا ضرور تباہ کن واپسی دے گی۔

دوسرے الفاظ میں، ویڈیو جنریشن دنیا کے ماڈل کا ایک اظہار ہے جو کئی مناظر میں لاگو ہو چکا ہے، لیکن یہ جسمانی ذہانت کا دنیا کا ماڈل نہیں ہے، اور نہ ہی فزیکل AI کے تناظر میں مرکزی شکل۔ "دنیا بنانے" کے ویژول اثرات کے ذریعے جسمانی ذہانت کے دنیا کے ماڈل کو تعریف کرنا، بنیادی طور پر ڈیجیٹل دنیا کے پیمانے سے فزیکل دنیا کے مسائل کو ناپنا ہے۔

کیا VLA مر چکا ہے؟ عالمی ماڈل انقلاب نہیں، بلکہ مکمل کرنے والا ہے

"VLA مر چکا ہے، WAM اس کی جگہ لے رہا ہے" صنعت کے اندر سب سے زیادہ پرکشش کہانی ہے۔

گزشتہ دو سالوں میں، VLA جسمانی ذہانت کا رائج راستہ رہا ہے۔ اس نے بڑے زبانی ماڈل کے پیش تربیت کے خیال کو اپنایا اور بے شمار ریموٹ آپریشن ڈیٹا کے ذریعے "حس کرنا - حکم - حرکت" کا نقشہ بنایا، جس سے روبوٹس کو سخت دہرائے جانے والے اقدامات سے نکل کر قدرتی زبان کو سمجھنے اور پیچیدہ کاموں کو تقسیم کرنے کی صلاحیت حاصل ہوئی۔ صنعت کے تمام رائج کھلاڑیوں نے VLA کو اپنی بنیادی تکنیکی بنیاد کے طور پر استعمال کیا ہے۔

لیکن VLA کی کمزوریاں بھی واضح ہیں: یہ بنیادی طور پر نقل کی سیکھنے کی وجہ سے یادداشت اور مطابقت پر منحصر ہے، جس کی وجہ سے فزکس کے بنیادی قوانین کو سمجھنے کی کمی ہے، اور اگر کوئی نیا منظر یا نئی چیز جو ڈیٹا میں نہیں دکھائی دیتی، تو اس کی عام کرنے کی صلاحیت جلد ختم ہو جاتی ہے۔ جم فان نے جو WAM راستہ پیش کیا، وہ بالکل اسی نقطہ پر توجہ مرکوز کرتا ہے۔ اس کا بنیادی منطق "سمینٹک سمجھ" سے "فزکل پیشگوئی" کی طرف منتقل ہونا ہے: عمل کو براہ راست نکالنے کے بجائے، پہلے مستقبل کی دنیا کی حالت کا تخمینہ لگایا جاتا ہے، اور پھر اس سے عمل کے سلسلے کو الٹا نکالا جاتا ہے، جس سے روبوٹ اپنے اندر "پہلے سے ہی" نتائج کا مشاہدہ کرتا ہے، اور اس طرح نئے مناظر کے لیے اپنی لچک بڑھاتا ہے۔

اس طرح "انقلابی نظریہ" فوراً پھیل گیا، VLA پرانا طریقہ کار ہے، اور عالمی ماڈل ہی جسمانی ذكاء کا اگلا جواب ہے۔ لیکن حقیقی صنعتی عمل میں، یہ معاملہ "یا تو زندہ یا مردہ" کے طور پر اتنی آسان نہیں ہے۔

صنعت دو واضح راستوں پر تقسیم ہو رہی ہے، جن کے پیچھے مختلف ٹیکنالوجی کے فلسفے اور تجارتی مطالبہ ہیں:

ایک سلیکون ویلی کی قیادت والی “متبادل” فکر ہے۔ جس میں NVIDIA اور Google DeepMind جیسے ادارے شامل ہیں، جو کافی کمپوٹیشنل پاور اور ڈیٹا کے ذخیرے کے ساتھ مکمل طور پر نئے طرز عمل کی تعمیر کی کوشش کر رہے ہیں۔ NVIDIA نے Cosmos 3 میں زبان، تصویر، ویڈیو اور حرکت کے سلسلے کو ایک ہی Physical AI ورلڈ ماڈل فریم ورک میں شامل کر دیا ہے، جس کا مقصد یہ ہے کہ جنریشن، شبیہہ سازی اور حرکت کا پیش گوئی الگ الگ ماڈول نہ رہ کر ایک ہم آہنگ نظام بن جائیں؛ Waymo اور Google DeepMind کی مشترکہ طرف سے جاری کیا گیا Waymo World Model، Genie 3 ماڈل کی صلاحیتوں کا استعمال کرتے ہوئے، نایاب موسم، جانوروں کے گھس جانے جیسے لمبے پُچھ کے مناظر صرف تخلیق نہیں کرتا، بلکہ ان مناظر کو ڈرائving حرکات، سڑک کے ڈھانچے اور زبانی شرائط کے تحت کنٹرول کرتا ہے تاکہ آٹو نوموس ڈرائونگ سسٹم کو برعکس حالت میں اپنی ردعمل کا امتحان دیا جا سکے۔

یہ راستہ سب سے زیادہ خواہش مند ہے اور "انقلابی کہانی" کے سب سے زیادہ مطابق ہے، لیکن اس کا دروازہ بہت بلند ہے، جو سرکاری بڑے کھلاڑیوں کا کھیل ہے۔

دوسری، گھریلو سطح پر زیادہ عام “اتحاد پسند” تصور ہے۔ اکثریت کھلاڑیوں نے مکمل طور پر نئی تعمیر کے بجائے، دنیا کے ماڈل کو VLA کی صلاحیتوں کا مکمل مجموعہ بنایا اور اسے موجودہ ڈھانچے میں ڈال دیا۔ 2026ء کے مئی میں Zhifangping نے VLA ایمبڈڈ بڑا ماڈل AlphaBrain جاری کیا۔ اس نے انسانی دماغ کے “دماغ-چھوٹا دماغ-جسم” کے تقسیم کے نظام کو اپنایا، اور “تیز اور سست نظام” کے تعاون سے دنیا کے ماڈل کی “پہلے سے ٹرائل” کی صلاحیت کو VLA ڈھانچے کے اندر گھلایا — سست نظام ماحول کی صورتحال کی سمجھ اور بلند سطح کے رویے کی منصوبہ بندی کے لیے ذمہ دار ہے، جبکہ تیز نظام باریک حسی اعداد و شمار اور فوری ردعمل کے لیے ذمہ دار ہے۔ Zhifangping کے بانی گو یانڈونگ کا جائزہ بہت سیدھا ہے: “دنیا کا ماڈل اور VLA مکمل طور پر متصادم نہیں ہیں، یہ دونوں ایک ہی تکنیکی راستے کے ایک ہی شاخ ہیں۔ اگر آپ لمبے عرصے تک استدلال کا کام کرنا چاہتے ہیں، تو آپ کو دنیا کا ماڈل + VLA چاہیے، یا دنیا کے ماڈل اور VLA کو ضم کرنا چاہیے۔”

گیلکسی یونیورسل نے بھی بہت دور تک سفر کیا ہے، ان کا اپریل 2024 میں جاری کیا گیا LDA-1B ماڈل، ایک یکسانہ فریم ورک میں اسٹریٹجی سیکھنے، فزیکل پیش بینی اور ویژول پریسپشن کو одноں ساتھ کرتا ہے، جس نے صنعتی سطح کے 1 ارب پیرامیٹرز کے سائز پر پہلی بار ورلڈ ماڈل اور ایکشن ماڈل کو ایک ساتھ جوڑا ہے۔ متعلقہ نتائج روبوٹکس کے ٹاپ کانفرنس RSS میں شامل ہو چکے ہیں، اور ماڈل کے وزن اور ٹریننگ کوڈ عام طور پر دستیاب ہیں۔ وہ "VLA چنیں یا ورلڈ ماڈل" پر تفصیل سے نہیں گھٹتے، بلکہ وہ عملی طور پر پیش بینی اور انجام دینے کے لیے ایک ہی ماڈل کو شیئر کرتے ہیں، تاکہ دونوں کے فوائد حاصل ہوں اور کمزوریاں مکمل ہو سکیں۔

ہمارے خیال میں، "تبادلہ" اور "اندراز" میں کوئی مطلق صحیح یا غلط نہیں، صرف مختلف مراحل کے مختلف انتخاب ہیں۔ VLA کبھی واقعی "مرنے" والی نہیں ہے، اور عالمی ماڈل بھی سب کچھ کو الٹ دینے والا انقلاب نہیں ہے، بلکہ یہ VLA کی سب سے زیادہ کمی کو پورا کرتا ہے — فزیکل پیشگوئی کی صلاحیت۔ دونوں کا آخری تعلق زیادہ تر طبقاتی تعاون ہوگا، نہ کہ ایک کا دوسرے کو مار ڈالنا۔ راستے کی فتح کا حقیقی فیصلہ کرنے والا کبھی بھی یہ نہیں ہے کہ تصور کتنے نئے ہیں، بلکہ یہ ہے کہ کون پہلے ڈیٹا، شبیہ سازی، اور حقیقی مشینوں کے ڈپلومنٹ کے سلسلے کو مکمل کر پاتا ہے تاکہ روبوٹس حقیقی مناظر میں داخل ہو سکیں۔

دنیا کا ماڈل ابھی تک لاگو نہیں ہوا، لیکن پہلے ہی اس کے تصور پر بے جا گرمی پیدا کر دی گئی ہے

جب تصور کی گرمی تکنیکی عمل سے آگے نکل جائے، تو فون بہت زیادہ ممکنہ نتیجہ ہوتا ہے۔ موجودہ دنیا کے ماڈل کے شعبے میں، کم از کم تین ایسے فون موجود ہیں جن کی طرف توجہ دینا ضروری ہے۔

پہلا مرحلہ فون کی تعریف ہے۔ آج کا "دنیا کا ماڈل" ایک ایسا ٹوکرا بن چکا ہے جس میں کچھ بھی ڈال دیا جا سکتا ہے۔ یان لیکن کا کہنا ہے کہ یہ عالمی حالت کی تفصیلی پیش بینی ہے، لی فیفی نے اسے انٹرایکٹو 3D جگہ کے نمائندگی کے طور پر تعریف کیا ہے، نوڈیا نے اسے فزیکل AI جنریٹو سیمولیشن کے طور پر متعین کیا ہے، اور کچھ اسٹارٹ اپس ویڈیو جنریشن کو اس کے لیے استعمال کر رہے ہیں، جبکہ دوسرے روایتی سیمولیشن انجن کے نام بدل کر اسے "دنیا کا ماڈل" کہہ رہے ہیں۔ چین میں دنیا کے ماڈل پر کام کرنے والی کمپنیوں کی تعداد دہوں میں ہے، لیکن وہ سب اکثر ایک ہی چیز کے بارے میں نہیں بول رہے۔ جب ایک ٹیکنالوجی کا تصور لامحدود طور پر تشریح کیا جا سکتا ہے، تو اس کا ٹیکنالوجی کا معیار ختم ہو جاتا ہے۔ تعریف کے عام ہونے کے پیچھے فنانس کی ضرورت اور مارکیٹنگ کے نرٹیو کا مشترکہ دباؤ ہے، کیونکہ "دنیا کا ماڈل" کہنا، "ویڈیو جنریشن ٹول" یا "سیمولیشن آپٹمائزیشن سولوشن" کہنے سے زیادہ قیمتی لگتا ہے۔

دوسرا بُرہان کمپیوٹنگ بُل بُرہان ہے۔ عالمی ماڈل کی معاصر تربیت کی راہ، بے شمار ویڈیو ڈیٹا اور بہت بڑی کمپیوٹنگ طاقت پر مبنی ہے، جو بالکل نوڈیا کا اپنا میدان ہے۔ ہوآنگ رینشون نے GTC کانفرنس میں کہا کہ 2027 تک بلاکول اور روبن چپس، اور ان کے طرف سے جسمانی ذہانت ماڈلز کے لیے ڈیزائن کیے گئے متعلقہ سسٹمز نوڈیا کے لیے کم از کم 1 ٹریلین ڈالر کی آمدنی لائیں گے۔ کچھ معنوں میں، سلیکون ویلی کے ٹاپ پلےئرز کی طرف سے "ساتھ میں تمام ماڈلز کا عالمی ماڈل" راستہ تجویز کرنا، نوڈیا کے "کمپیوٹنگ انفراسٹرکچر فروخت" کے تجارتی منطق سے بالکل مطابقت رکھتا ہے۔ لیکن اس راستے کے لیے درکار سرمایہ کاری کا شرح اکثر کمپنیوں کے لیے بے حد ہے۔ گزشتہ VLA پر سرمایہ کاری کرنے والے چھوٹے ٹیمز بھی اس قدر کے غیر قابل واپسی خرچے برداشت نہیں کر پائے، تو پھر عالمی ماڈل کے شعبے میں صفر سے شروع کرنے والوں کا حال تو بہت زیادہ برا ہوگا۔ جب سب کوئی اسی اعلیٰ کمپیوٹنگ راستے پر بات کر رہا ہو، لیکن اس کا لاگت اور فائدہ کا تناسب تقریباً کوئی نہیں سمجھ پا رہا، تو یہ خود بخود بُل بُرہان کا علامت ہے۔

تیسری اور سب سے مہلک بات یہ ہے کہ یہ فوم زمین پر گر جاتا ہے۔ تمام تصوراتی کہانیاں ایک ہی سوال کا جواب دینے کی کوشش کرتی ہیں: کیا یہ حقیقی مشین کی کارکردگی میں اضافہ کر سکتی ہے؟ اور حقیقت یہ ہے کہ شبیہہ سے حقیقی تک کا فرق، صرف اس لیے ختم نہیں ہو جاتا کہ ماڈل کا نام VLA سے WAM ہو جائے۔ ویڈیو میں ایک چھوٹی سی ٹرانسپارنسی، ضدِ ثقل، یا حدود کا ابھاڑ، روبوٹ ٹریننگ میں غلط فزکس کے تصور میں جامد ہو جائے گا؛ ایک ایسا پیشگوئی جو منطقی لگے مگر فزکس کے قوانین کے خلاف ہو، اس کا روبوٹ پر مضحکہ خیز اثر اس سے بھی زیادہ ہو سکتا ہے جب کوئی ماڈل استعمال نہ کیا جائے۔

اینٹی لِنگبو کے سربراہ سائنسدان شن یوجون نے مرکزی فرق کو واضح کیا: ڈیجیٹل دنیا کے جنریٹو ماڈلز کے لیے ہائی ڈیفینیشن اور ریلسٹک چیزیں حاصل کرنا ممکن ہے، اور تھوڑا سا دیر سے چلنے کا مسئلہ نہیں؛ لیکن فزیکل دنیا کے ماڈلز کے لیے پہلا اہم تقاضہ تیز، مستحکم اور درست ہونا ہے، جس سے ریل ٹائم میں فیڈ بیک دیا جا سکے اور حرکات کو سپورٹ کیا جا سکے۔ بہت سے ٹیمیں ڈیجیٹل دنیا میں مناظر کو اتنے حقیقی بنانے میں مصروف رہتی ہیں کہ وہ بھول جاتی ہیں کہ حقیقی فزیکل انٹرایکشن کا ڈیٹا سب سے کم دستیاب وسائل میں سے ایک ہے۔ عالمی ماڈلز شِمُلیشن میں خوبصورت اعداد و شمار پیدا کر سکتے ہیں، لیکن جب تک وہ فیکٹری لائن، لواسٹک ویئر ہاؤس، یا کھلے راستوں پر حقیقی قدر ثابت نہ کر لائیں، تب تک وہ صرف لیب میں ٹیکنالوجی کا تجربہ ہوتے رہتے ہیں، صنعتی سطح کے انفراسٹرکچر نہیں۔

تو، فزیکل AI یا ایمبڈڈ انٹیلی جنس کے لیے عالمی ماڈل کیا ہونا چاہیے؟ جواب پریزنٹیشن کے ویڈیوز میں نہیں، بلکہ حقیقی منظر کی ضروریات میں ہے۔ اس کا مرکزی معیار یہ نہیں کہ "پیدا کیا گیا عالم کتنا واقعی لگتا ہے"، بلکہ یہ ہے کہ "کیا یہ مشین کو فزیکل دنیا میں بہتر طریقے سے حرکت کرنے میں مدد کر سکتا ہے"، کیا یہ غلطیوں کی لاگت کو کم کر سکتا ہے، کیا یہ جامع صلاحیت بڑھا سکتا ہے، اور کیا یہ حقیقی کاروباری سائکل میں ڈالا جا سکتا ہے۔

موجودہ صنعت کے عمل کے مطابق، درست راستہ پر چلنے والے کھلاڑی ایک ہی کام کر رہے ہیں: دنیا کے ماڈل کو "دکھانے کی سمت" سے "کام کی سمت" میں منتقل کرنا، دوسرے الفاظ میں، دنیا کے ماڈل کا آخری روپ ایک الگ "مصنوعات" نہیں بلکہ مختلف فزیکل سسٹمز میں گھلی ہوئی بنیادی صلاحیت ہے۔ یہ خود کار گاڑیوں کے سیمیولیشن بیک اینڈ، روبوٹس کے ایکشن پلاننگ ماڈول، اور فیکٹری لائن کے پیش گوئی سسٹم میں چھپا ہوا ہے، جہاں یہ پیش گوئی، تجربہ، اور درستگی کا کام خاموشی سے کرتا ہے۔ زیادہ تر وقت صارفین اس کے وجود کو محسوس نہیں کرتے۔

وہی دنیا کے ماڈل کا دور ہے، بالکل، اسے دنیا کا ماڈل بھی نہیں کہا جا سکتا۔

جسمانی ذہانت میں ورلڈ ماڈلز: ویژول جنریشن کے باہر ایک آگے کا راستہ

عالمی ماڈل بالکل "تصویر بنانے" کے برابر نہیں ہے

کیا VLA مر چکا ہے؟ عالمی ماڈل انقلاب نہیں، بلکہ مکمل کرنے والا ہے

دنیا کا ماڈل ابھی تک لاگو نہیں ہوا، لیکن پہلے ہی اس کے تصور پر بے جا گرمی پیدا کر دی گئی ہے