کوڈ سے شناخت تک: روبوٹ دماغوں کے ترقی کا گہرا جائزہ

مصنف: Matt White, لینکس فاؤنڈیشن کے عالمی AI سربراہ ٹیکنالوجی افسر

ترجمہ: فیلکس، PANews

انسانی شکل کا روبوٹ

وانگ شنگشینگ (Yu Shu Technolog کے سی ای او) اور میٹ وائٹ

چند ہفتے پہلے شنگھائی میں، ایک ساتھ سفر کرنے والے دوست (جو ذہین تھا، عام طور پر خبریں دیکھتا اور چیزوں کا مشاہدہ کرتا تھا، لیکن روبوٹکس کے بارے میں زیادہ نہیں جانتا تھا) نے رات کے کھانے کے دوران اس سفر کے دوران میں میں ہمیشہ انتظار کر رہا سوال پوچھا۔

ہم نے جو ڈاگ روبوٹس دیکھے جو گھوم رہے ہیں، اور جو انسانی شکل کے روبوٹس یو شو کے دفتر میں کونگ فو کا اظہار کر رہے ہیں، اور جو میکنیکل آرمز کپڑے طوڑ رہے ہیں — وہ کیسے کام کرتے ہیں؟ کya یہ بڑے زبانی ماڈلز (LLM) سے چل رہے ہیں؟ یہ بالکل کیسے کام کرتا ہے؟ کیا ان کے حرکات کو کوئی زبانی ماڈل کنٹرول کر رہا ہے؟

یہ ایک بہت اچھا سوال ہے، صاف طور پر: کچھ حد تک ہاں، لیکن حقیقی کہانی اس سے بھی زیادہ دلچسپ ہے۔ آپ سوشل میڈیا پر جو روبوٹ دیکھتے ہیں، وہ ChatGPT کے دھاتی کیس میں نہیں ہوتے۔ ان کے پاس ایک ٹیکنالوجی اسٹیک چلتی ہے (کئی سطحوں کے AI جو ایک ساتھ کام کرتے ہیں)۔ گزشتہ تین سالوں میں اس اسٹیک میں جو تبدیلیاں آئیں، وہ گزشتہ تین دہائیوں سے زیادہ ہیں۔ زبان کے ماڈل اس کا ایک حصہ ہیں۔ وژن ماڈل، ایکشن ماڈل، بیہیور ٹریز، کلاسیکل کنٹرول لُوپس، اور "ورلڈ ماڈل" نام کا ایک نئے نظام کا خاندان بھی اس کے اہم حصے ہیں۔ اور "ورلڈ ماڈل" شاید تمام ترقیات میں سب سے اہم ہے۔

یہ ایک لمبا مضمون ہے جو شروع سے شروع ہوگا، پھر ہر بڑی تبدیلی کو تدریجاً بیان کرے گا، اور آخرکار موجودہ مرحلے تک پہنچے گا: روبوٹ صرف دنیا کے رد عمل میں نہیں آتے بلکہ دنیا کا تخیل بھی کرتے ہیں۔

ایک: پہلے LLM کے دور میں: جب روبوٹ صرف سافٹ ویئر تھے

کئی دہائیوں تک، روبوٹ بنانا کئی زیادہ کوڈ لکھنا سمجھا جاتا تھا، اور ان میں سے تقریباً تمام کوڈ سیکھنے کی ضرورت نہیں تھی۔

کلاسیکی صنعتی روبوٹ، مخصوص طور پر ڈیزائن کیے گئے ماڈیولز کے ٹاور جیسی ساخت کے ذریعے بنائے جاتے ہیں۔ مثال کے طور پر، 1990 کی دہائی میں ٹویوٹا چیسس کو ویلڈ کرنے والی نارنگی روبوٹک بازو، یا ابتدائی 2000 کی دہائی میں بوسٹن ڈائنامکس کا BigDog۔

حسّ: فلٹر کیمرہ فریم، کناروں کی تشخیص کریں، اور جیومیٹرک میچنگ کا استعمال کرکے کام کے ٹکڑے کی پوزیشن پہچانیں۔
حالت کا اندازہ لگانا: روبوٹ کی پوزیشن اور حرکت کی رفتار کو تعین کرنے کے لیے چھوٹے اینکوڈر، جایرو اسکوپ اور ایکسلرومیٹر (سینسر فیوژن) کا استعمال کرنا۔
منصوبہ: معلوم نقشہ میں A* یا RRT جیسے الگورتھمز کا استعمال کرتے ہوئے مطلوبہ وضعیت کے لیے ایک بے رکاوٹ راستہ کا حساب لگائیں۔
کنٹرول: سب سے نیچے، PID کنٹرولر اس راستے کی پیروی کرنے کے لیے فی سیکنڈ سینکڑوں یا ہزاروں بار موٹر کے ٹارک کو تبدیل کرتا ہے۔

یہ سطحیں عام طور پر مختلف لیبارٹریوں کے مختلف افراد کے ذریعہ لکھی جاتی ہیں اور بہت دقت سے جوڑی جاتی ہیں۔ رویے (جیسے "اگر کپ سرخ ہو تو اٹھائیں، ورنہ انتظار کریں") کو حالتی مشین یا بیہیوئر ٹری کے طور پر کوڈ کیا جاتا ہے: یعنی روبوٹ جو مرحلہ وار انجام دیتا ہے۔

انسانی شکل کا روبوٹ

اس طریقہ کے فوائد واضح ہیں۔ یہ پیش گوئی کے قابل ہے اور حفاظتی معیارات کے مطابق ہے۔ اسی لیے آپ کی گاڑی میں موثر ABS بریکنگ سسٹم لگا ہوا ہے۔

نقص بھی واضح ہیں۔ ایسا روبوٹ صرف انجینئرز کے خیال کیے گئے مناظر میں ہی اپنی ذکاوت کا مظاہرہ کر سکتا ہے۔ اگر اسے نئے فیکٹری، نئی روشنی کی صورتحال یا نئے کپ کے رنگ میں رکھ دیا جائے، تو یہ ٹوٹ جائے گا۔ اس کی عام کرنے کی صلاحیت تقریباً صفر ہے۔

دو: مشین لرننگ خاموشی سے مداخلت کر رہا ہے

2010 کی دہائی میں، گہری سیکھنے نے感知 لیئر کے مسائل کو حل کرنے شروع کر دیا۔ وہ کنولوشنل نیورل نیٹ ورکس (CNN) جو ImageNet تصویر طبقہ بندی کے کام میں انسانوں کو شکست دے چکے تھے، انہیں دوبارہ تربیت دے کر اشیاء پر گریپ پوائنٹس کا پتہ لگانے، کمرے کے فرنیچر کو الگ کرنے، یا انسانی وضع کی شناخت کرنے کے لیے استعمال کیا جا سکتا تھا۔ اچانک، ٹیکنالوجی اسٹیک کے سب سے اوپر کا "感知" لیئر دستی طور پر ڈیزائن کرنے کی ضرورت ختم ہو گئی، آپ اسے براہ راست تربیت دے سکتے ہیں۔

اس کے بعد، سیکھنے کا عمل "کنٹرول" لیول تک پھیل گیا۔ برکلے یونیورسٹی، ڈیپ مائنڈ اور اوپن اے آئی کے محققین نے دکھایا کہ ری انفورسمنٹ لرننگ (جو روبوٹ ایجینٹس کو سیمیولیشن ماحول میں ملینوں بار کوشش کرنے اور موثر رویوں کو مضبوط بنانے کی اجازت دیتا ہے) حیرت انگیز مہارت والے چلنے کے انداز، ہاتھوں سے اشیاء کو چلانا (اوپن اے آئی نے 2019 میں ایک ہاتھ سے روبکس کیو ب حل کرنا ایک علامتی نقطہ تھا)، اور مختلف زمینی ٹریکس کے لیے حرکت کی حکمت عملیاں پیدا کر سکتا ہے۔

ایک اور متوازی تحقیقی سمت مقلد سیکھنا ہے، جسے عام طور پر رویہ نقل کہا جاتا ہے: انسان کے ذریعہ ریموٹ کنٹرول کردہ روبوٹ کو کسی کام کو پورا کرنے کے لیے سینکڑوں کوششیں ریکارڈ کرنا، اور پھر نیورل نیٹ ورک کو ٹرین کرنا تاکہ وہ انسان کے اس عمل کا پیشن گوئی کر سکے جو روبوٹ کی مشاہدہ شدہ صورتحال کے مطابق انسان کرے گا۔

اس کلیدی بات یہ ہے کہ ہر سیکھی گئی حکمت عملی بہت تنگ ہے۔ ایک نیٹ ورک کو ایک سرخ بلاک اٹھانے کے لیے تربیت دیں، تو وہ ایک پیلے کپ کو کیسے سنبھالنا ہے، اس کا اندازہ نہیں لگا سکتا۔ اسے گھاس پر چلنے کے لیے تربیت دیں، تو وہ ٹائلز کی زمین پر گر جائے گا۔ عام کرنے کی صلاحیت اب بھی ایک بڑا مسئلہ ہے۔

یہ قابل ذکر ہے کہ اس دوران ایک بنیادی ڈھانچہ وجود میں آیا جو آج بھی تقریباً ہر چیز کی بنیاد ہے: ROS، روبوٹ آپریٹنگ سسٹم (پہلی بار نومبر 2007 میں جاری کیا گیا)۔ ROS ونڈوز یا لینکس کے معنی میں ایک آپریٹنگ سسٹم نہیں ہے، بلکہ ایک مڈل ویئر فریم ورک ہے، ایک عام روبوٹ پائپ لائن سسٹم۔ یہ "کیمرہ نوڈ"، "نیویگیشن نوڈ"، "مینیپولیٹر کنٹرولر نوڈ" اور دیگر دہوں نوڈز کو شیئرڈ بس کے ذریعے پیغامات جاری اور سبسکرائب کرنے کی اجازت دیتا ہے۔

ROS2 کی موجودہ ورژن عالمی سطح پر زیادہ تر سائنسی اور تجارتی روبوٹس کے بنیادی نظام کے طور پر کام کرتی ہے، جس میں اسٹینفورڈ یونیورسٹی کے لیب سے لے کر چین کی انسان نما روبوٹ سٹارٹ اپ کمپنیاں شامل ہیں۔ جب لوگ روبوٹس کے "آپریٹنگ سسٹم" کی بات کرتے ہیں، تو وہ تقریباً ہمیشہ ROS2 اور اس پر چلنے والے مختلف سینسر، منصوبہ بندی اور کنٹرول سافٹ ویئر پیکجز کو مراد لیتے ہیں۔

انسانی شکل کا روبوٹ

ROS2: یہ ایک آپریٹنگ سسٹم نہیں ہے، بلکہ الگ الگ روبوٹ سافٹ ویئر کو آپس میں رابطہ کرنے کے لیے ایک عام پائپ لائن ہے

تین: LLM کا روبوٹکس میں استعمال

اس کے بعد، ChatGPT پیدا ہوا۔

اچانک ایک چیز ظاہر ہوئی: LLM۔ اس کی صلاحیت ہے کہ وہ سادہ انگریزی ہدایات پڑھ سکتی ہے، متعدد مراحل کا استدلال کر سکتی ہے، کوڈ لکھ سکتی ہے اور فنکشنز کو کال کر سکتی ہے۔ روبوٹکس کے ماہرین نے تقریباً فوراً احساس کر لیا کہ یہی وہ کمی تھی جس کی وہ سالوں سے کوشش کر رہے تھے۔ گھر یا دفتر میں روبوٹ کو کچھ مفید کاموں کے لیے موزوں بنانا، عام طور پر موٹرز کنٹرول نہیں بلکہ انسان اور روبوٹ کے درمیان تعامل ہے: انسان روبوٹ کو کیسے بتاتا ہے کہ وہ کیا کرے، اور روبوٹ اس مقصد کو ان ایٹمک حرکات میں کیسے تقسیم کرتا ہے جن کو وہ پہلے سے جانتا ہے؟

روبوٹس پر LLM کے استعمال کا پہلا مرحلہ، زبانی ماڈل کو ROS کے اوپر ایک قدرتی زبان کمپائلر کے طور پر دیکھنا ہے۔ ماڈل درج ذیل ہے:

کچن کے کاؤنٹر پر رکھے گئے کافی کے کپ کو لے آئیں اور میری میز پر رکھ دیں۔
LLM روبوٹ کے دستیاب ایٹومک مہارت کی فہرست کے مطابق منصوبہ تیار کرتا ہے: فنکشن کالز کی ترتیب، اسٹیٹ ماشین، یا XML میں لکھا گیا بیہیوئر ٹری۔
ROS2 نوڈ یہ منصوبہ مرحلہ وار انجام دے گا۔ اگر کوئی مرحلہ ناکام ہو جائے، تو ناکامی کی معلومات LLM کو رپورٹ کی جائیں گی تاکہ LLM دوبارہ منصوبہ بندی کر سکے۔

گوگل کا 2022 کا SayCan پروجیکٹ اس خیال کا ایک بہت ہی مختصر ورژن ہے: LLM مہارتیں پیش کرتا ہے، ایک الگ "موجودگی" ماڈل ہر مہارت کی موجودہ کامیابی کے امکان کا جائزہ لیتا ہے، اور روبوٹ سب سے زیادہ جوڑے گئے اسکور والی مہارت کا انتخاب کرتا ہے۔ ہواوی ریسرچ لیب کی قیادت میں ROS-LLM، ROSGPT اور ROSA جیسے کھلے فریم ورکس نے اس ماڈل کو عام کیا ہے۔

یہ حقیقت میں ایک بڑی کامیابی ہے۔ اچانک، آپ روبوٹ کو "میز صاف کریں اور ری سائیکل کے سامان کو نیلے کوڑے کے برتن میں ڈال دیں" کہہ سکتے ہیں، اور وہ کچھ منطقی کارروائیاں کرنے کی کوشش کرے گا۔ لیکن توجہ دیں، اب بھی کچھ مسائل موجود ہیں: زبانی ماڈل اب بھی منصوبہ بندی کے مرحلے پر ہے۔ عملی حرکتوں کے حکمات اب بھی نیچے والے، دلچسپ طور پر ڈیزائن کیے گئے یا خصوصی طور پر تربیت دیے گئے کنٹرولرز سے تیار کیے جاتے ہیں۔ زبانی ماڈل صرف ایک ذکی شیڈولر ہے، جو حرکت کا ذمہ دار نہیں ہے۔

انسانی شکل کا روبوٹ

چار: ویژوئل-زبان-حرکت ماڈل (VLA)، جب دماغ روبوٹ کو چلانا شروع کر دے

انسانی شکل کا روبوٹ

کینون XMAN-R1 روبوٹ، بیجنگ میں گالبٹ کمپنی کے آٹومیٹڈ فارمیسی میں شیلف سے دواں نکال رہا ہے۔ صرف 100,000 امریکی ڈالر میں

اگلی قدم مشکل تر اور زیادہ اہم ہوگی۔ تحقیق کاروں نے ایک زیادہ طموحی سوال پیش کیا: اگر ماڈل صرف منصوبہ بندی نہیں کر سکتا بلکہ براہ راست ایکشن ہدایات بھی جنریٹ کر سکتا ہے تو؟ اگر کیمرے کی تصویر اور زبانی ہدایات کو براہ راست ایک نیورل نیٹ ورک میں ڈالا جائے، تو کیا اگلے ملی سیکنڈ کے جوائنٹ موشن حاصل کیے جا سکتے ہیں؟

یہ ویژوئل-زبان-اکشن ماڈل (VLA) ہے۔ یہ اب انسان نما اور چار پاؤں والے روبوٹس کے شعبے میں مرکزی طریقہ کار ہے۔

پہلا عام طور پر جانا جانے والا بصری زبان روبوٹ 2023 میں گوگل ڈیپ مائنڈ کے ذریعہ RT-2 کے نام سے متعارف کرایا گیا۔ اس کی عمدہ بات یہ ہے: ایک بڑے بصری زبان ماڈل (جو تصویروں کی تفصیل اور سوالات کے جوابات کے لیے تربیت یافتہ ہے) کا استعمال کیا جاتا ہے، اور اسے روبوٹ کے ڈیمو ڈیٹا کے ساتھ مزید تربیت دی جاتی ہے، لیکن روبوٹ کے افعال کو ایک اور پیش گوئی کرنے والے ٹوکن کے طور پر دیکھا جاتا ہے۔ وہی نیورل نیٹ ورک جو اب تک "بلی تکیہ پر بیٹھی ہے" کہہ رہا تھا، اب " دائیں پاؤں کو 3 سینٹی میٹر آگے لے جائیں، پاؤں بند کریں، 5 سینٹی میٹر اُٹھائیں" جیسے ٹوکنز کا سلسلہ پیدا کر سکتا ہے۔ استدلال اور عمل دونوں ایک ہی ماڈل میں مکمل ہوتے ہیں۔

اس کے بعد، 2024 کے درمیان میں، ایک سٹینفورڈ یونیورسٹی کی قیادت والی ٹیم نے OpenVLA جاری کیا، جو کہ 70 ارب پیرامیٹرز والا ایک اوپن سورس VLA ماڈل ہے جو Open X-Embodiment ڈیٹا سیٹ پر تربیت یافتہ ہے۔ یہ ڈیٹا سیٹ 21 مختلف ریسرچ لیبز سے اکٹھا کیا گیا ہے جس میں 22 مختلف روبوٹ باڈیز شamil ہیں۔ یہ پہلی بار تھا جب گوگل کے باہر کسی نے جنرل روبوٹ ماڈل ڈاؤن لوڈ کرکے اس میں تبدیلیاں کرنا شروع کر دیں۔ اس نے پورے شعبے کو ایک رات میں تبدیل کر دیا۔

اب، لیڈنگ VLA جو تعداد میں کم ہیں، لیکن تیزی سے ترقی کر رہے ہیں:

Physical Intelligence کے π0 اور π0.5: عالی سطح کی انجام دہی کی صلاحیت۔
NVIDIA Isaac GR00T N1.7: اوپن ویٹس، کمرشل لائسنس، انسان نما روبوٹس کے لیے ڈیزائن کیا گیا، اور زیادہ تر چینی ہارڈویئر کمپنیاں اس کا استعمال اپنے ڈیٹا کے ساتھ پوسٹ ٹریننگ کے لیے کر رہی ہیں۔
فگر AI کا ہیلکس اور اپڈیٹڈ ہیلکس-02: ملکی ٹیکنالوجی، لیکن ساختی طور پر اہم۔
AgiBot کا Genie Envisioner: چینی ورلڈ مدل پر مبنی پلیٹ فارم۔
SmolVLA، NORA، ACoT-VLA، CogACT: اکادمیک دنیا میں VLA کی تعداد مسلسل بڑھ رہی ہے جو مختلف ڈیزائن کے رخوں کا جائزہ لے رہی ہیں۔

VLA کیسے کام کرتا ہے (ریاضی کے فارمولوں کے بغیر)

آپ VLA کو تین ان پٹ سگنلز کو ایک آؤٹ پٹ سگنل میں ضم کرنے کے طور پر سمجھ سکتے ہیں۔

پہلا ڈیٹا فلو ویژول ڈیٹا ہے۔ RGB کیمرے (کبھی کبھی ڈیپتھ سینسر یا لیزر ریڈار)، کبھی کبھی انگلیوں پر ٹیکٹائل سینسرز، ویژول اینکوڈر (عام طور پر DINOv2 یا SigLIP جیسے ٹرانس فارمر ماڈل) کے ذریعے پروسیس کیے جاتے ہیں، جو ہر تصویر کو کچھ سو "ویژول ٹوکن" میں دبا دیتا ہے جو روبوٹ کے دیکھے گئے مواد کو خلاصہ کرتے ہیں۔

دوسرا ڈیٹا فلو زبان ہے۔ آپ کے حکم ("سکرو ڈرائیور مجھے دیں") کو ChatGPT کی طرح ٹوکن میں تبدیل کر دیا جاتا ہے۔

ان دو ڈیٹا اسٹریمز کو جوڑ دیا جاتا ہے اور ایک ٹرانسفارمر "بیک بون" (عام طور پر Qwen3 یا Llama جیسے ایک چھوٹا اوپن سورس زبان ماڈل) میں داخل کیا جاتا ہے۔ اس بیک بون کا کام استدلال کرنا ہے، جس میں وہ دیکھے گئے معلومات کو اپنے سے پوچھے گئے سوالات کے ساتھ جوڑتا ہے۔

تیسرا ڈیٹا فلو: ایکشن، دوسری طرف سے بہ رہا ہے۔ یہاں مختلف آرکیٹیکچر ڈیزائنز میں فرق آتا ہے:

ڈسکریٹ ایکشن ٹوکن: ماڈل ب без جوائنٹ اینگلز یا اینڈ ایفیکٹر پوزیشن میں ڈیکوڈ کیے جانے والے ٹوکنز کو براہ راست جنریٹ کرتا ہے، جیسے ChatGPT الفاظ جنریٹ کرتا ہے۔ یہ طریقہ آسان ہے، لیکن اعلیٰ فریکوئنسی پر چلنے پر جھٹکے پیدا کرتا ہے۔
فریق یا فلو-میچنگ ایکشن ہیڈ: ایک الگ مائیکرو نیٹ ورک مین بون کے آؤٹ پٹ کو قبول کرتا ہے اور ایک چکنی جوائنٹ پوزیشن ٹریجکٹری کو ڈی نوائز کرتا ہے، جیسے کہ تصویری فیلڈ مدلز، صرف یہاں حرکت کو جنم دیا جاتا ہے۔ یہی π0 کا طریقہ ہے، جس سے زیادہ چکنے اور قدرتی ایکشنز بنतے ہیں۔
ایکشن بلوکنگ: اگلے ایک ہی ہدایت کا پیش گوئی نہیں کیا جاتا، بلکہ اگلی آدھی سیکنڈ کی ہدایات کا مجموعہ ایک ساتھ پیش گوئی کیا جاتا ہے تاکہ جھٹکے کو ہموار کیا جا سکے۔

انسانی شکل کا روبوٹ

VLA مدل میں: دو ان پٹ اسٹریمز، موشن ہدایات کا آؤٹ پٹ، اور استدلال اور عمل ایک ہی نیٹ ورک میں ضم ہو جاتے ہیں۔

یہ ایک اہم ساختی تبدیلی ہے: استدلال اور عمل اب الگ نہیں ہیں۔ نیورل نیٹ ورک کو کپ کو پہچاننے کے ساتھ ساتھ کپ کو پکڑنے کا طریقہ بھی سکھایا گیا۔ یہی جوڑا VLA کو عام کرنے کی اجازت دیتا ہے، جبکہ ان کے سابقین اسے نہیں کر سکتے تھے۔

پانچ: دو مغز کی حکمت عملی، LLM اور VLA کیسے مل کر کام کرتے ہیں

یہ ایک ایسا تفصیل ہے جو مارکیٹنگ میں کبھی واضح طور پر نہیں بیان کیا جاتا۔ آج کے دور میں سب سے بہترین کارکردگی والے انسان نما روبوٹس ایک واحد VLA سسٹم پر نہیں، بلکہ دو مختلف رفتار والے ماڈلز پر چل رہے ہیں جو ایک دوسرے کے ساتھ مواصلات کرتے ہیں۔ اسے کبھی کبھی دو سسٹم یا سسٹم 1 / سسٹم 2 آرکیٹیکچر کہا جاتا ہے، جو ڈینیل کینمن کے نفسیاتی فریم ورک سے متاثر ہے، جس میں انسان کے پاس ایک تیز رفتار محسوس کرنے والا دماغ اور ایک آہستہ، غور و فکر والے دماغ ہوتا ہے۔

فگر AI کا ہیلکس اس ڈیزائن کو کلاسک بناتا ہے، اب یہ (اور اس کے ویریئنٹس) تقریباً ہر جگہ نقل کیے جا رہے ہیں۔ خاص طور پر، NVIDIA کا GR00T N1.7 اس ڈیزائن کو اپناتا ہے، اور زیادہ تر چینی انسان نما روبوٹس بھی اس ڈیزائن کو اپناتے ہیں۔ اس کی ساخت درج ذیل ہے:

سسٹم 2 (S2): سست سوچنے والا دماغ۔ ایک 70 ارب پیرامیٹرز والی ویژوئل-زبان ماڈل جو تقریباً 7–9 ہرٹز (یعنی فی سیکنڈ 7 سے 9 بار) کی رفتار سے چلتا ہے۔ اس کا کام منظر کا مشاہدہ کرنا، ہدایات کو سمجھنا، متعدد مراحل کا استدلال کرنا (جیسے، "کٹورہ دانے کے باکس کے پیچھے ہے؛ مجھے پہلے باکس ہٹانا ہوگا")، اور اعلیٰ سطح کے ارادے — عام طور پر مختصر اندری ویکٹرز کا مجموعہ — جاری کرنا، نہ کہ خود الفاظ۔
سسٹم 1 (S1): فوری ردعمل دماغ۔ ایک بہت چھوٹا (تقریباً 80 ملین پیرامیٹرز) ویژول موشن اسٹریٹجی ماڈل جو 200 ہرٹز کی فریکوئنسی پر چلتا ہے۔ یہ S2 کے ارادہ ویکٹر اور تازہ ترین سینسر ڈیٹا کو ریسیو کرتا ہے اور مسلسل جوائنٹ کمانڈز کا اخراج کرتا ہے۔ اس میں کسی بھی عملی معنی میں "سوچ" نہیں ہوتی، صرف ردعمل دیتا ہے۔

ہالکس-02 کے حالیہ اپ ڈیٹ میں سسٹم 0 شامل کیا گیا ہے۔ یہ دو مغز سسٹم کے نیچے ایک ریفلیکس لیئر ہے، تیسری شناختی لیئر نہیں۔ یہ ایک ایسا نیٹ ورک ہے جس میں 10 ملین پیرامیٹرز ہیں اور 1 کلکھرٹز کی فریکوئنسی پر چلتا ہے، جو بنیادی توازن اور پورے جسم کے تناظم کو سنبھالتا ہے، جس نے لاکھوں لائنوں کوڈ کی ہاتھ سے لکھی گئی موشن کنٹرول C++ کو متبادل فراہم کیا ہے۔ آپ S0 کو ایک حاصل کردہ ریڑھ کی هڈی کے طور پر سمجھ سکتے ہیں: یہ استدلال یا منصوبہ بندی نہیں کرتا، صرف جسم کو سیدھا رکھنا اور تناظم برقرار رکھنا ہوتا ہے، جبکہ سوچنے کا کام اوپر والے دو مغز سسٹم کرتے ہیں۔

انسانی شکل کا روبوٹ

جدید انسان نما روبوٹس کی دو دماغی ساخت: سسٹم 2 آہستہ سوچتا ہے، سسٹم 1 تیزی سے رد عمل دیتا ہے — اس کے نیچے ایک سسٹم 0 ریفلیکس لیئر ہے جو توازن، محسوس کرنے اور پورے جسم کے ہم آہنگی کو برقرار رکھتا ہے

یہ تقسیم فزکس کی پابندیوں کی وجہ سے ہے۔ اگر صرف 200 ملی سیکنڈ میں ایک حرکت کمانڈ جاری کی جائے (جو ایک بڑے VLA کی رفتار ہے)، تو روبوٹ کی حرکت پانی کے اندر حرکت کی طرح سست ہو جائے گی۔ حرکت کمانڈس کو اپڈیٹ کرنے کی رفتار ان کنٹرول کیے جانے والے جوائنٹس کی قدرتی ارتعاش سے زیادہ ہونی چاہئے، جس کا مطلب ہے کہ فی سیکنڈ سینکڑوں یا ہزاروں اپڈیٹس درکار ہوں گے۔ کوئی بھی 70 ارب پیرامیٹر والے ٹرانسفارمر ماڈل بیٹری چلایا جانے والا روبوٹ پر اتنی تیز رفتار سے نہیں چل سکتا۔

اس لیے، معرفتی کاموں کو تقسیم کیا گیا: بڑا اور سست ماڈل سوچنے کے لیے؛ چھوٹا اور تیز ماڈل عمل کرنے کے لیے۔ وہ انگریزی میں بات نہیں کرتے، بلکہ سیکھے گئے پوشیدہ ویکٹرز کے ذریعے رابطہ کرتے ہیں: سستا ماڈل انتزاعی مقاصد جاری کرتا ہے، جبکہ تیز ماڈل اسے کیسے سمجھنا ہے، اس کا علم رکھتا ہے۔

سکس: بادل، ایج کمپیوٹنگ، اور "دماغ" کی جگہ کا مسئلہ

یہ تمام حسابات بالآخر کہاں کیے جاتے ہیں؟

اب، روبوٹ ٹیموں کے درمیان تقریباً ایک مضبوط، تقریباً عقیدتی اتفاق وجود رکھتا ہے کہ حفاظت کے لیے ضروری مرکزی کنٹرول لوپ مقامی طور پر چلنا چاہیے۔ دو وجوہات ہیں:

تاخیر۔ وائی فائی یا سیلولر نیٹ ورک کا راؤنڈ ٹرپ ٹرانسمیشن ٹائم، مثبت تخمہ کے ساتھ بھی 30-80 ملی سیکنڈ ہوتا ہے۔ جبکہ ایکشن کمانڈز کو ہر 1-5 ملی سیکنڈ میں اپڈیٹ کیا جانا چاہیے۔ ایسے نیٹ ورک سائکل بالکل کام نہیں کر سکتے۔

قابلیت اعتماد۔ روبوٹ فیکٹریوں، اسٹورز، کچن، ہسپتالوں وغیرہ میں کام کرتے ہیں۔ نیٹ ورک کبھی بھی منقطع ہو سکتا ہے۔ اگر وائی فائی قطع ہوتے ہی روبوٹ بند ہو جائے تو یہ ایک محفوظ نہیں ہوگا۔

تو، جدید تقسیم درج ذیل ہے:

اپنے ڈیوائس پر (لوکل)، NVIDIA Jetson Thor یا AGX Thor میڈیول (تقریباً 2,000 TFLOPS، 128 GB میموری، 40–130 W طاقت کا استعمال) پر چلائیں:

S0/S1 کے تمام فنکشنز: توازن، حرکت، باریک حرکات کا کنٹرول۔
VLA خود (سسٹم 2)، ہارڈویئر کی پابندیوں کے مطابق، زیادہ تر FP8 یا FP4 فارمیٹ میں کم کیا جا رہا ہے۔ آج 2 ارب سے 7 ارب پیرامیٹرز کے دائرے کے ماڈل ڈیوائس پر چل رہے ہیں۔
حس کرنا، سینسر فیوژن، اور کسی بھی دوسرے آپریشن کو کور کرنے والا سیکورٹی مانیٹرنگ پروگرام۔

بادل یا ریموٹ سرور (اگر موجود ہو):

ڈائیلاگ انٹرفیس ("اے، روبوٹ، میں رات کا کھانا کیا کھاؤں؟")：ان انٹرفیسز میں تاخیر کو برداشت کیا جا سکتا ہے۔
کلستر سیکھنا: ہزاروں روبوٹ دور دراز کے آپریشن کے ڈیٹا کو سرور پر بھیجتے ہیں تاکہ اگلے ورژن ماڈل میں شامل کیا جا سکے۔
بڑے پیمانے پر طویل مدتی منصوبہ بندی کی ضرورت ہے، جس میں اگلی نسل کے ماڈلز استعمال ہو سکتے ہیں۔
آپریٹر ڈیش بورڈ اور مانیٹرنگ۔

اس کے علاوہ، ایک مسلسل بڑھتی ہوئی درمیانی پرت ہے: فیکٹری یا اسٹور کے اندر مقامی ایج سرورز جو مقامی نیٹ ورک کے ذریعے روبوٹ کلسٹر کے ساتھ کمیونیکیٹ کرتے ہیں اور تاخیر صرف کچھ ملی سیکنڈ کی ہوتی ہے۔ زیادہ بڑے LLM اس سطح پر ڈپلوی کیے جا سکتے ہیں جو ایک روبوٹ کو اپنے آپ کنٹرول کرنے کی ضرورت نہیں ہوتی اس کے لیے اعلیٰ شیڈولنگ کاموں کو انجام دیتے ہیں۔

چین کی انسان نما روبوٹ کی لہر اس فرضیہ پر مبنی ہے: یوٹی (Unitree)، زہیوآن (AgiBot)، شاوپینگ IRON، فو لی یو (Fourier)، زہو جی دینلی (EngineAI)۔ ان کے روبوٹ میں بورڈ پر کمپیوٹنگ صلاحیت (عام طور پر Jetson، کبھی کبھی ہواوی Ascend جیسے چینی چپس کا استعمال کرتے ہوئے) ہوتی ہے، جبکہ کلاؤڈ کا استعمال کلستر سیکھنے اور ڈائیلاگ انٹرفیس کے لیے ہوتا ہے، کنٹرول لوپ کے لیے نہیں۔

انسانی شکل کا روبوٹ

روبوٹ کے دماغ کا عملی طور پر چلنے کا مقام: سیفٹی کریٹیکل سرکٹس مقامی طور پر چلتے ہیں، جبکہ کلاؤڈ وہ چیزیں انجام دیتا ہے جن کا انتظار کیا جا سکتا ہے۔

سب سے پہلے: کیوں اوپن سورس ماڈل خاموشی سے فوکس بن گئے

اگر آپ صرف ڈیمو دیکھیں، تو آپ کو لگ سکتا ہے کہ یہ شعبہ کچھ مالی طور پر طاقتور امریکی کمپنیوں کے ہاتھوں میں ہے۔ لیکن حقیقت اس سے کہیں زیادہ پیچیدہ ہے۔ فزیکل AI کی ترقی کی رفتار کو بنیادی طور پر وہ اوپن سورس وزن ماڈل طے کرتے ہیں جنہیں کوئی بھی ڈاؤن لوڈ اور مائکرو ٹیون کر سکتا ہے۔

درج ذیل مدلز کم ہیں لیکن ان کا اہمیت ہے:

OpenVLA (استنفورد یونیورسٹی): پہلا اوپن سورس 7B جنرل روبوٹ ماڈل۔
NVIDIA Isaac GR00T (N1, N1.5, N1.7): اوپن سورس وزن جلد جاری ہوں گے، اور تجارتی لائسنس بھی جلد دستیاب ہو جائے گا؛ یہ ماڈل لاکھوں گھنٹوں کے انسانی سینٹرک ویڈیوز پر ٹرین کیا گیا ہے۔ GR00T N1.7 مارچ 2026 میں جاری کیا جائے گا، جب کوئی بھی انسانی روبوٹ رکھنے والا اس کے ڈبل سسٹم آرکیٹیکچر کا مفت استعمال کر سکے گا۔
فیزیکل انٹیلی جنس کا π0: تحقیق کے لیے وزن جاری کیے گئے۔
NVIDIA Cosmos: اوپن ورلڈ فاؤنڈیشن ماڈل۔
AgiBot World: شانگھائی کے ایک اسٹارٹ اپ کی طرف سے جاری کیا گیا وسیع اوپن سورس ڈیٹا سیٹ، جس میں ریموٹ کنٹرولڈ ہیومانوئڈ روبوٹس کے ڈیمو شامل ہیں۔
ہگنگ فیس کا لیروبوٹ: ایک کھلا لائبریری جو اوپر کے تمام پلیٹ فارمز کا مرکز بن چکا ہے۔
میمک روبوٹکس کا میمک-ویڈیو: ایک اوپن سورس ویڈیو-ٹو-اکشن ماڈل جو روایتی VLA کے مقابلے میں 10 گنا زیادہ نمونہ کارائی رکھتا ہے۔

یہ اہم ہے، کیونکہ دو وجوہات ہیں۔ پہلا، روبوٹ اسٹارٹ اپ کو ایک بنیادی ماڈل کو پہلے سے تربیت دینے کے لیے کروڑوں ڈالر خرچ کرنے کی ضرورت نہیں ہے: وہ GR00T یا π0 لے سکتے ہیں اور اپنے روبوٹ کے ڈیٹا کے ساتھ اسے بعد میں تربیت دے سکتے ہیں۔ یو یو، زھو جی دونگ لی، بوستر، گل بٹ اور دہوں سے زائد چینی چھوٹی کمپنیاں اسی طرح کر رہی ہیں۔ اسی لیے صرف کچھ سو ملازمین والی ایک کمپنی بھی ایسے انسان نما روبوٹ تیار کر سکتی ہے جو چل سکتے ہیں، بول سکتے ہیں، اور کپڑے طوڑ سکتے ہیں: وہ اوپن سورس ٹیک اسٹیک کے کندھوں پر کھڑے ہیں۔

دوسرا، اوپن سورس ماڈل محفوظیت کے مسائل کا واحد عملی حل ہے۔ اگر کوئی مکمل طور پر بند سورس ماڈل کسی فیکٹری کے اسٹیشن پر روبوٹ کے اندر چل رہا ہو اور باہر سے اس کے استدلال کے منطق تک کوئی رسائی نہ ہو، تو یہ ضرور ایک ریگولیٹری خواب کا منظر ہوگا۔ اوپن سورس ماڈلز سے آڈٹرز، تحقیق کاروں اور آپریٹرز کو روبوٹ کو کیا ٹرین کیا گیا ہے، اس کا حقیقی جائزہ لینے کی اجازت ملتی ہے۔

اٹھارہ: ابھی تک کون سے مسائل حل نہیں ہوئے ہیں

اگر آپ نے کافی زیادہ روبوٹ ڈیمو ویڈیوز دیکھی ہیں، تو آپ نے بہت ساری روبوٹ فیلیور ویڈیوز بھی دیکھی ہوں گی۔ موجودہ نسل کے LLM+VLA روبوٹ حقیقت میں متاثر کن ہیں، لیکن ان میں واضح حدود بھی ہیں۔ یہاں ان کے مسائل ہیں:

کام کے درمیان بحالی۔ VLA کی پہلے کے کسی بھی ٹیکنالوجی کے مقابلے میں غیر متوقع تبدیلیوں کا مقابلہ کرنے کی صلاحیت زیادہ ہے۔ لیکن جب چیزیں حقیقت میں خراب ہو جائیں (جیسے گرفتاری میں خرابی، اشیاء کا لڑکنا، یا کوئی کام کے علاقے میں داخل ہو جائے)، تو دوبارہ راستہ پکڑنا اب بھی ایک کمزور نقطہ ہے۔ روبوٹ غیر منطقی طور پر ناکام حرکات دہراتا رہتا ہے۔
نمونہ کی کارآمدی۔ ایک VLA کو صفر سے تربیت دینے کے لیے ہزاروں گھنٹوں کا ریموٹ آپریشن ڈیٹا درکار ہوتا ہے۔ جبکہ انسان ایک نئے ٹول کو آپریٹ کرنا سیکھنے میں صرف کچھ منٹ لگاتے ہیں۔ یہ کارآمدی کا فرق بہت بڑا ہے۔
کراس-انٹیٹی جنرلائزیشن۔ اسٹینفورڈ لیب میں فرانکا روبوٹک آرم کے ساتھ تربیت یافتہ ماڈل، شنزن کے اسٹور میں یو شو انسان نما روبوٹ پر مکمل طور پر منتقل نہیں ہوتا۔ دونوں کی فزیکل شکلیں مختلف ہیں۔
طویل مدتی کام۔ کوئی بھی کام جس میں 30-60 سیکنڈ سے زیادہ مسلسل سرگرمیاں درکار ہوں اور جس میں کئی ذیلی مقاصد شامل ہوں، اس کا مقصد چھوٹ جانے کا خطرہ ہوتا ہے۔ "میرے لیے ناشتہ تیار کر دو" جیسا کام ہمیشہ ناپائیدار رہتا ہے۔
فیزیکل اصول۔ VLA کو سمجھنے کے بجائے نقل کرنے کی تربیت دی گئی ہے۔ اسے "ایک گلاس پانی کو الٹ دینے" کے وقت پانی کیسے بہہ جاتا ہے، اس کا اصل مطلب نہیں معلوم۔ اس نے صرف کچھ مثالیں دیکھی ہیں اور اگلے کیا ہونا ہے، اس کا اندازہ لگانے کے لیے میچنگ پیٹرن استعمال کرتی ہے۔
جغرافیائی استدلال کی صلاحیت۔ حالانکہ وہ بہ متعدد ماڈل ہیں، لیکن "رکاوٹ کے ذریعے نہیں بلکہ اس کے گرد سے گزرنے" یا "ان چیزوں کو ایک دوسرے کے اوپر رکھنا تاکہ وہ نہ گریں" جیسے کاموں میں حیرت انگیز طور پر کمزور ہیں۔

آخری سلسلہ کمزوریوں نے اس شعبے کو ایک بالکل مختلف ماڈل پر زور دینے کے لیے مجبور کر دیا۔

نائن: عالمی ماڈل

اس کا خیال کیجیے کہ اگر روبوٹ کو حرکات کا پیش گوئی کرنے کے بجائے حرکات کے نتائج کا پیش گوئی کرنے کے لیے تربیت دی جائے تو کیا ہوگا؟

عالمی ماڈل (World Model) ایک نیورل نیٹ ورک ہے جو موجودہ دنیا کی حالت (عام طور پر ایک ویڈیو یا فریمز کا سلسلہ) اور پیش گوئی کردہ اقدامات کے مطابق دنیا کے اگلے منظر کا تخمینہ لگاتا ہے۔ سادہ الفاظ میں، آپ اسے ایک ڈائریکشنل ویڈیو پرڈکشن سسٹم کے طور پر سمجھ سکتے ہیں۔ آپ اسے آخری ایک سیکنڈ کی کیمرہ فوٹیج دکھائیں اور بتائیں کہ "روبوٹ اپنا بازو 10 سینٹی میٹر آگے بڑھائے گا"، تو یہ اگلے ایک سیکنڈ کی واقعی ویڈیو پیدا کر دے گا۔

یہ کیوں اہم ہے؟

کیونکہ ایک عالمی ماڈل کے ساتھ، روبوٹ اپنے اقدامات سے پہلے سوچ سکتا ہے۔ وہ تین یا چار مختلف ممکنہ اقدامات کا خاکہ بناسکتا ہے، ہر اقدام کے نتائج کا تخمہ لگاسکتا ہے، انہیں درجہ بندی کرسکتا ہے، اور بہترین منصوبہ منتخب کرسکتا ہے۔ یہ سب موتور کی حرکت سے پہلے مکمل ہوجاتا ہے۔ یہی شطرنج انجن کا کام کرنے کا طریقہ ہے: وہ حرکتوں کو یاد نہیں رکھتا، بلکہ مستقبل کا خاکہ بناتا ہے۔ پہلے فزیکل روبوٹس کو ایسی صلاحیت حاصل نہیں تھی، کیونکہ حقیقی دنیا کو درستگی سے محاکمہ کرنے کے لیے کبھی کافی درست ماڈل دستیاب نہیں ہوئے تھے۔

انسانی شکل کا روبوٹ

عالمی ماڈل روبوٹ کو متعدد ممکنہ مستقبل کے منظر ناموں کو شمار کرنے، انہیں درجہ بندی کرنے اور کسی بھی موتور کو شروع کرنے سے پہلے بہترین منصوبہ منتخب کرنے کی اجازت دیتا ہے

2026 کا عالمی ماڈل کیسا ہوگا؟

موجودہ دور کے سب سے جدید عالمی ماڈلز کی قسمیں بہت زیادہ ہیں، لیکن وہ تیزی سے ترقی کر رہے ہیں۔ درج ذیل کچھ ماڈلز ہیں：

NVIDIA Cosmos: ایک سیریز کھلے دنیا کے بنیادی ماڈلز، جن میں Cosmos Predict 2.5 (جینریٹو ماڈل)، Cosmos Transfer 2.5 (کنٹرولڈ سیمیولیشن ماڈل)، Cosmos Reason 2 (روبوٹس کے لیے ویژول لینگویج ریزننگ) اور نئے Cosmos Policy شamil ہیں۔ Cosmos Policy مزید آگے بڑھ کر، عالمی ماڈل پر پوسٹ-ٹریننگ کے ذریعے کنٹرول کے لیے براہ راست ایکشنز پیدا کرتا ہے۔ Cosmos کو تربیت دینے کے لیے لاکھوں GPU گھنٹوں کے ویڈیو ڈیٹا کا استعمال کیا گیا ہے (Cosmos Predict 2.5 اس سیریز کا عالمی ماڈل ہے)۔
DeepMind Genie 3: ایک انٹرایکٹو ورلڈ ماڈل جو متن کے حوالے سے مکمل طور پر قابل گھومنے والے ماحول بناتا ہے، 24 فریم فی سیکنڈ کی فریم ریٹ کے ساتھ، اور کئی منٹ تک مستقل طور پر چلتا ہے۔ اسے اصل میں گیم ماحول کے لیے ڈیزائن کیا گیا تھا۔
میٹا V-JEPA 2: پری ٹریننگ کے لیے ایک ملین سے زائد گھنٹوں کے ویب ویڈیوز کا استعمال کیا گیا، اور صرف 62 گھنٹوں کے روبوٹ ویڈیوز کے ساتھ ایکشن کنڈیشنڈ ٹریننگ کی گئی۔ مختلف لیب میں حقیقی روبوٹ ہاتھوں پر، کسی بھی خاص ٹاسک ٹریننگ کے بغیر، 80% زیرو شاٹ پک اپ اور رکھنے کی کامیابی حاصل ہوئی۔ "JEPA" طریقہ تعمیر کے لحاظ سے دوسرے طریقوں سے بالکل مختلف ہے۔
DeepMind Dreamer 4: صرف آف لائن ڈیٹا کا استعمال کرتے ہوئے، بنا کسی ماحولیاتی تعامل کے، مائین کرافٹ میں ہیرے جمع کرنے کا کام (20,000 اسٹیپ کا کام) سیکھ لیا۔ اس سے ثابت ہوتا ہے کہ ورچوئل دنیا میں حقیقی تقویتی سیکھنا ممکن ہے۔
AgiBot کا Genie Envisioner: چین سے ایک یکجا عالمی ماڈل پلیٹ فارم جسے 3000 سے زیادہ گھنٹوں کے حقیقی دنیا کے انسان نما روبوٹ آپریشن ویڈیوز کے ساتھ تربیت دی گئی ہے۔ یہ یا تو پیش بینی کردہ ایکسپینشن ٹریجکٹریز بناتا ہے یا اجرائی حرکت کے ٹریجکٹریز۔ AgiBot NVIDIA Cosmos Predict 2 کو بیک بون نیٹ ورک کے طور پر استعمال کرتا ہے اور اپنے ڈیٹا کے ساتھ پوسٹ ٹریننگ کرتا ہے۔ یہی وہ "اوپن سورس ٹیکنالوجی اسٹیک + اپنا ڈیٹا" ماڈل ہے جس کا پہلے تفصیل سے ذکر کیا گیا تھا۔
ٹویوٹا ریسرچ انسٹیٹیوٹ کا کاسموس پر مبنی عالمی ماڈل: ریموٹ آپریشن، ڈیٹا ایونسمنٹ اور نیویگیشن کے لیے۔

انسانی شکل کا روبوٹ

2025-2026 کے ستھے سب سے اہم عالمی ماڈلز، جن میں سے ہر ایک مشین کو فزکس کیسے سیکھنا چاہیے اس کے لیے الگ الگ خیالات پیش کرتے ہیں۔

دہ: اس شعبے میں ابھی تک کوئی متفقہ رائے نہیں ہے، اس لیے متبادل ارتقاء

دنیا کے ماڈل کو تعمیر کرنے کا کوئی ایک معیار نہیں ہے۔ آرکیٹیکچر کی جدوجہد AI کے شعبے میں سب سے دلچسپ بحثوں میں سے ایک ہے، جو روبوٹس کے مستقبل میں کیا کر سکتے ہیں، اس پر ب без تاثر ڈالتی ہے۔ درج ذیل تین فریق قابلِ توجہ ہیں:

پکسل لیول ویڈیو ڈیفیوژن (کاسموس/سورا سکول): مستقبل کے فریمز کے اصل پکسلز کو ڈیفیوژن ماڈلز کے استعمال سے پیش بینی کرنا۔ فائدہ یہ ہے کہ یہ مرکب ڈیٹا جنریٹر کے طور پر کام کر سکتا ہے، جو کبھی نہ ہونے والے نئے روبوٹ ڈیمو کو رینڈر کر سکتا ہے۔ نقصان یہ ہے کہ اس کی لاگت زیادہ ہوتی ہے، کبھی کبھی فزکس کے قوانین کو نظرانداز کرتی ہے، اور ایسے پکسلز کی پیش بینی کرنا جنہیں کبھی نہیں دیکھا جائے گا، بے کار ہے۔

جائنڈ جوائنڈ پریڈکشن آرکیٹیکچر، جسے JEPA (لیکن اسکول) کہا جاتا ہے: پیکسلز کی نہیں، بلکہ اگلے فریم کے اbstract ریپریزینٹیشن کی پیشگوئی کرتا ہے۔ ٹیکسچر کی تفصیلات کو چھوڑ دیا جاتا ہے، صرف منظر میں چیزوں کا سیمنٹک اصل رکھا جاتا ہے۔ اس کا فائدہ کارآمدی ہے، جو اقدامات کے لیے ضروری عوامل پر توجہ مرکوز کرتا ہے۔ نقصان یہ ہے کہ اسے استعمال کرنا مشکل ہے۔ V-JEPA، V-JEPA 2 اور نئے JEPA-VLA مکس ماڈل اس شعبے کو تلاش کر رہے ہیں۔

ممکنہ ایکشن ورلڈ ماڈل (جنی/ڈریمر سیریز): پورے ویڈیو کو ایک ممکنہ "ایکشن زبان" میں کمپریس کرنے کا طریقہ سیکھنا، جو سلوک کی ساخت کو کیپچر کرتی ہے، اور پھر ورلڈ ماڈل کو ٹرین کرنا تاکہ وہ اگلے ممکنہ ایکشن کے مطابق اگلے ممکنہ اسٹیٹ کا پیش گوئی کر سکے۔ فائدہ یہ ہے کہ آپ بنا ایکشن والے ویب ویڈیوز کا استعمال کرکے ٹریننگ کر سکتے ہیں، اور پھر کچھ حقیقی روبوٹ ڈیٹا شامل کر سکتے ہیں۔ نقصان یہ ہے کہ ممکنہ ایکشنز انسانوں کے لیے قابل فہم نہیں ہوتے، جس سے سیفٹی اینالسز پیچیدہ ہو جاتا ہے۔

انسانی شکل کا روبوٹ

پکسل ڈیفیوژن، JEPA اور پوٹینشل ایکشن: ایک ہدف، لیکن دنیا کے ماڈل کے تعمیر کے لیے بالکل مختلف طریقے

الیون: دنیا کے ماڈل پر مبنی روبوٹس کے عملی заастعمال

اگر کچھ سال آگے بڑھ جائیں، تو ایک جدید انسان نما روبوٹ کی ساخت اس طرح دکھائی دے سکتی ہے:

VLA پر ایک ورلڈ مڈل ہے۔ جب روبوٹ نئی صورتحال کا سامنا کرتا ہے، تو وہ درج ذیل جیسی کارروائی کرتا ہے:

VLA نے کچھ اگلے اقدامات کے امکانی تجاویز پیش کیے ہیں (یہ اب بھی ایک حکمت عملی ہے)۔
عالمی ماڈل ہر امیدوار ایکشن حاصل کرے گا اور 1-3 سیکنڈ کا فرضی ویڈیو سیمیولیٹ کرے گا۔
ایک قیمت جج وہ نتائج کے مطابق اسکور دے گا: کپ اٹھایا گیا؟ کچھ گر گیا؟ کوئی شخص ٹکرایا گیا؟
روبوٹ سب سے زیادہ اسکور والے اقدام کو چنے گا اور صرف اس کا پہلا حصہ انجام دے گا۔
حقیقی سینسر ڈیٹا کی واپسی؛ دہرائی جانے والی دوہرائی۔

یہ مدل پیڈکشن کنٹرول ہے، جس ٹیکنالوجی کا استعمال کئی سالوں سے راکٹ اور کوئٹی کوپٹر کو مستحکم کرنے کے لیے کیا جاتا رہا ہے، لیکن اس نے دستی طور پر نکالے گئے فزیکل ایکویشنز کو سیکھے گئے ورلڈ مڈل کے ساتھ تبدیل کر دیا ہے۔ اس کی قابلیتِ توسیع اس بات میں ہے کہ ورلڈ مڈل لاکھوں گھنٹوں ویڈیوز پر پری ٹرینڈ ہوتا ہے، نہ کہ کسی نے کچن کے ماحول کے لیے نیویر-سٹوکس ایکویشنز (Navier-Stokes equations) لکھ دیے ہوں۔

اس کے فوائد مرحلہ وار بڑھتے ہیں:

حالات بہتر ہو رہی ہیں۔ اگر کوئی گرفتاری کا عمل غلط ہو جائے، تو عالمی ماڈل کئی درستگی کے راستے سوچ سکتا ہے اور سب سے زیادہ امید کے ساتھ راستہ منتخب کر سکتا ہے۔
عمومی صلاحیت میں اضافہ ہوا ہے۔ ویب ویڈیوز پر تربیت دی گئی عالمی ماڈلز نے کسی بھی روبوٹ کے ریموٹ آپریشن ڈیٹا سیٹ سے کئی درجہ بڑھ کر "فزیکل ظواہر" کا تجربہ کیا ہے۔
لمبے مدت کے منصوبہ بندی کو قابو میں لایا جا سکتا ہے۔ حقیقت میں نہیں، بلکہ تخیل میں منصوبہ بندی کریں۔
محاکہ اور حقیقت کے درمیان فرق کم ہو گیا ہے۔ پہلے، صرف اپنے خود بنائے گئے محاکہ پلیٹ فارم (جیسے Isaac Sim، Newton فزکس انجن) کا استعمال کرکے تربیت دی جاتی تھی، اور پھر امید کی جاتی تھی کہ تربیت کے نتائج حقیقی استعمال میں منتقل ہو جائیں، لیکن اب آپ تربیت یافتہ محاکہ پلیٹ فارم کا استعمال کر سکتے ہیں جو حقیقی ویڈیو کے ساتھ مطابقت رکھتا ہے۔ اس طرح فرق کم ہو گیا ہے۔
مرکب ڈیٹا میں دھماکہ خیز اضافہ ہوا ہے۔ ایک عالمی ماڈل تقریباً مفت طور پر مختلف روشنی، سطحیں اور اشیاء کے ترتیب کے ساتھ ملینوں مختلف روبوٹ کی راہیں پیدا کر سکتا ہے۔ یہ شعبے کے سب سے بڑے رکاوٹوں میں سے ایک کو حل کرتا ہے۔

اس کے علاوہ، اس میں ایک اہم حفاظتی فائدہ بھی ہے۔ ایک روبوٹ جو اقدامات کے نتائج کو محاکمہ کر سکے، خطرناک عمل کو انجام دینے سے انکار کر سکتا ہے: نہ کہ پیش گوئی کے قواعد کی وجہ سے، بلکہ اس لیے کہ وہ مستقبل میں کسی کو نقصان پہنچنے کا خیال رکھتا ہے۔

انسانی شکل کا روبوٹ

دو حرکت کے طریقے: VLA دیکھے گئے کے مطابق رد عمل ظاہر کرتی ہے؛ جبکہ دنیا کے ماڈل روبوٹ حرکت سے پہلے سوچتے ہیں

十二：اور جاننا چاہیے کہ کیا ہے

سچی اہمیت والی مسئلہ ڈیٹا کا مسئلہ ہے: اگر آپ ماڈل کو ڈیٹا فراہم نہیں کر سکتے، تو دنیا بھر کے آرکیٹیکچر کے ایجادی تبدیلیوں کا کوئی فائدہ نہیں۔ ابھی، ریموٹ آپریشن (انسان VR ڈیوائس پہن کر روبوٹ کو ماریونیٹ کی طرح چلاتے ہیں) بنیادی ٹیکنالوجی کا رکاوٹ ہے۔ ایک روبوٹکس کمپنی کا مقابلہ کرنے کا فرق اب اس کے ماڈل سے زیادہ اس کے ڈیٹا کلیکشن لائن پر منحصر ہے۔ Zhìyuán Robotics نے آپریٹرز سے بھرے گوداموں کا قیام کر لیا ہے۔ NVIDIA GR00T N1.7 کا مہارت کا اضافہ قانون ظاہر کرتا ہے کہ زیادہ انسانی پہلے نظر کے ویڈیوز براہ راست اور قابل پیشگوئی طریقے سے روبوٹس کی مہارت میں اضافہ کرتے ہیں۔ یہی وہ حصہ ہے جس میں چین کو ساختی فائدہ حاصل ہے: کم ڈیٹا کلیکشن کا لیبر لاگت، زیادہ سازگار ڈپلومنٹ ماحول، اور حکومت کا سپلائی چین کو فعال طور پر ہم آہنگ کرنا۔

سیمیولیشن ایک متوازی یونیورس ہے۔ NVIDIA کا Isaac Sim، نیا اوپن سورس Newton فزکس انجن (1.0 ورژن اپریل 2026 میں باہر آئے گا)، اور Omniverse پلیٹ فارم کی مدد سے کمپنیاں اپنے روبوٹس کو حقیقی دنیا میں ڈپلوی نہیں کیے، بلکہ لاکھوں متوازی سیمیولیشن ماحولوں میں ٹرین کر سکتی ہیں۔ زیادہ تر "روبوٹک انٹیلیجنس" کے جھلک جیسے فنکشنز دراصل سیمیولیشن ماحول میں پالے جاتے ہیں، اور پھر ہارڈویئر پر منتقل کر دیے جاتے ہیں۔

معاشی فوائد ظاہر ہونا شروع ہو گئے ہیں۔ 2025 میں یو شو نے تقریباً 5500 انسان نما روبوٹس فراہم کیے اور 2026 میں 10,000 سے 20,000 تک پہنچنے کی منصوبہ بندی کر رہا ہے۔ اوسط قیمت دو سالوں میں 85,000 امریکی ڈالر سے گھٹ کر 25,000 امریکی ڈالر ہو گئی۔ یو شو کا R1 5,900 امریکی ڈالر میں فروخت ہو رہا ہے۔ نویکس بومی کی لسٹنگ قیمت 1,400 امریکی ڈالر ہے۔ انسان نما روبوٹس کے ہارڈویئر کی قیمتیں صارفین کے الیکٹرانکس کی قیمت کے قریب پہنچ رہی ہیں، جبکہ ان کے اندر موجود AI ٹیکنالوجی اب بھی ڈیمو پروڈکٹس سے پیچھے ہے۔ یہ فرق آخرکار کم ہو جائے گا، جبکہ اس وقت سائز مارکیٹ میں اضافہ پورے صنعت پر نمایاں اثر ڈالے گا۔

خرابی کا انداز عجیب لگتا ہے۔ جب LLM کے مبنی روبوٹ خراب ہوتے ہیں، تو وہ ایسے خراب ہوتے ہیں جیسے روایتی روبوٹ کبھی نہیں کر سکتے۔ مثال کے طور پر، بے جا اعتماد کے ساتھ غلط کام کرنا، "ہالوسینیشن" کے ذریعے کچھ فنکشنز کو محسوس کرنا، اور اپنے پلانر کے ساتھ مکالمے کے حلقوں میں پھنس جانا۔ روایتی روبوٹیکس کا اس بات پر کافی شک اور تردید ہے، جو مبرر ہے، کیونکہ وہ یہ مانतے ہیں کہ سیکھنے والے نظاموں کو محفوظ نگرانی اور روئیں کے تحت رکھنا چاہئے۔ اب تک کے سب سے قابل اعتماد ڈپلوئڈ روبوٹ مخلوط ہیں: VLA دماغ کو ہاتھ سے ڈیزائن کیے گئے محفوظ کیج میں رکھا گیا ہے۔

"ChatGPT کا لمحہ" کا بیان ایک مفید لیکن نامناسب استعارہ ہے: ہوئینگن ہمیشہ سب کو یہ بتا رہے ہیں کہ روبوٹس کا ChatGPT کا لمحہ آ چکا ہے۔ وہ اس لیے ایسا کہتے ہیں کیونکہ NVIDIA گڑھے اور خاکے بیچ رہی ہے۔ زیادہ سچا ورژن یہ ہے: ابھی تقریباً فزیکل AI کے GPT-2 دور میں ہیں۔ یہ طاقتور ہے، آپ کو حیران کر سکتی ہے؛ لیکن ابھی تک اتنی طاقتور نہیں کہ بنا نگرانی کے استعمال کی جا سکے۔ یہ تیزی سے ترقی کر رہی ہے، لیکن وائرل پھیلاؤ کا نقطہ ابھی نہیں آیا، بلکہ ایک آہستہ اور مستقل ترقی کا راستہ ہے۔

اختتام

انسانی شکل کا روبوٹ

یو شو کے چار پاؤں والے روبوٹ کا ترقیاتی سفر ( دائیں سے بائیں )

یو شو کے دفتر میں دیکھے گئے ڈیمو میں، پانچ G1 انسان نما روبوٹس نے کاروائی کی اور ان کے افعال کو دقت سے ڈیزائن کیا گیا، جبکہ اس کے اندرونی VLA جیسا کنٹرولر میں تھوڑا سا ایڈجسٹمنٹ کیا گیا اور ریموٹ آپریٹرز نے یقینی بنایا کہ سب کچھ درست طریقے سے چل رہا ہے۔ بنیادی طور پر، یہ مکمل طور پر خودمختار نہیں تھا۔ لیکن پورا عمل: حس کرنا، منصوبہ بندی، اور حرکت کا کنٹرول، اب نیورل نیٹ ورکس کے ذریعے تبدیل ہو رہا ہے۔ دو سال بعد، وہی روبوٹس بغیر کسی ڈیزائن کے وہی افعال انجام دے سکتے ہیں، کیونکہ وہ پورے افعال کو پہلے سے سوچ چکے ہیں اور بہترین ورژن منتخب کر چکے ہیں۔

جو مکمل ترقی کا سلسلہ اس مضمون میں بیان کیا گیا ہے: ہاتھ سے لکھے گئے کنٹرولرز سے لے کر مشین لرننگ کی سمجھ، پھر LLM پلانر، پھر VLA، پھر دو سسٹم آرکیٹیکچر، اور آخر میں دنیا کا ماڈل، وہ روبوٹک انٹیلی جنس کے موجودہ مقام کا آہستہ تبدیل ہونا ہے۔ یہ انجینئرز کے دماغ سے شروع ہوا، پھر ہاتھ سے لکھی گئی کوڈ میں تبدیل ہوا، پھر پریسپشن لیور میں داخل ہوا، پھر پلانر میں، پھر سٹریٹجی لیور میں۔ اب، یہ آخرکار دنیا کے خود کے ماڈل کو سیکھنے کی طرف جا رہا ہے۔

ہر تبدیلی روبوٹ کو زیادہ عام، زیادہ لچکدار اور زیادہ مفید بناتی ہے۔ اگر دنیا کا ماڈل تبدیل ہونا کامیاب ہوا، تو یہ روبوٹ کو ایک طاقت دے گا جو اس سوال کو ختم کر دے گی: "روبوٹ کیا کر سکتا ہے؟" اور اس کی جگہ یہ سوال لائے گی: "ہمیں انہیں کیا کرنا چاہیے؟"

متعلقہ پڑھیں: 30 سے زیادہ انسان نما روبوٹ کمپنیوں کا جائزہ: 2026 تک کون جیتے گا؟