الورین AI نے فزیکل دنیا کے لیے ویژل ریزننگ کو آگے بڑھانے کے لیے 55 ملین ڈالر جمع کر لیے ہیں

لکھنے والے: الفا کمیونٹی

AI کے بڑے ماڈلز کی صلاحیتیں کچھ شعبوں میں عام افراد سے زیادہ آگے نکل گئی ہیں، جیسے پروگرامنگ اور ریاضی۔ اطلاعات کے مطابق، Anthropic کے اندر تقریباً 100% AI پروگرامنگ حاصل کر لی گئی ہے، اور Google کا Gemini Deep Think نے IMO 2025 میں 6 سوالات میں سے 5 کو حل کر لیا، جو طلائی تمغہ کے معیار کے برابر ہے۔

لیکن ویژول ریزننگ کے معاملے میں، حتیٰ کہ لیڈنگ سطح کا Gemini 3 Pro بھی BabyVision نامی اس بینچ مارک پر صرف 3 سالہ بچے کے برابر کارکردگی دکھاتا ہے۔

کیوں بڑے ماڈلز پروگرامنگ اور ریاضی میں مضبوط ہوتے ہیں لیکن بصری استدلال میں کمزور؟ اس کا سبب ان کے “سوچنے کے انداز” میں پابندیاں ہیں، ویژوئل زبان ماڈل (VLM) کو بصری ان پٹ کو زبان میں تبدیل کرنا پڑتا ہے، اور پھر متن پر مبنی استدلال کرتا ہے، لیکن بہت سے بصری کاموں کو الفاظ کے ذریعے درست طور پر بیان نہیں کیا جا سکتا، جس سے ماڈل کی بصری استدلال کی صلاحیت کمزور ہو جاتی ہے۔

گوگل ڈیپ مائنڈ میں 14 سال کام کرنے والے اینڈریو ڈائی، ایپل کے تجربہ کار AI ماہر یین فی یانگ کے ساتھ مل کر ایلورین AI نامی ایک کمپنی قائم کی ہے، جس کا مقصد مدلز کی ویژول ریزننگ کو "بچوں کے سطح" سے "بالغوں کے سطح" تک بلند کرنا اور مدلز کو "ویژول اسپیس" میں اصلی طور پر سوچنے کی صلاحیت عطا کرنا ہے، تاکہ فزیکل دنیا کے لیے AGI کو چیلنج کیا جا سکے۔

الورین AI نے Striker Venture Partners، Menlo Ventures اور Altimeter سمیت کئی ساتھی لیڈ انویسٹرز کی طرف سے 55 ملین امریکی ڈالر کی ابتدائی سرمایہ کاری حاصل کی، جس میں 49 Palms اور جیف ڈین سمیت عالمی سطح کے ٹاپ AI سائنسدان بھی شامل ہیں۔

مُتَعدّد ماڈل کے ابتدائی، جو بصری ماڈل کو استدلال کی صلاحیت دینا چاہتے ہیں

چینی نژاد اینڈریو دائی، جو کیمبرج سے کمپیوٹر میں انسٹیٹیوٹ کے فارغ التحصیل ہیں اور ایڈنبرگ سے مشین لرننگ میں ڈاکٹریٹ کر چکے ہیں، انہوں نے اپنے ڈاکٹریٹ کے دوران گوگل میں انٹرن شپ کی، 2012 میں گوگل میں شامل ہوئے اور تقریباً 14 سال تک رہے، جب تک کہ انہوں نے کاروبار شروع نہیں کیا۔

Yinfei Yang
تصویر کا حوالہ: Andrew Dai کا لینکڈإن

گوگل میں شامل ہونے کے فوراً بعد، اس نے کوک وی لی کے ساتھ مل کر زبانی ماڈلز کی پری ٹریننگ اور سپروائیزڈ فائن ٹیوننگ پر پہلی تحریر، "Semi-supervised Sequence Learning" لکھی۔ اس تحریر نے GPT کے وجود کی بنیاد رکھی۔ اس کی دوسری بنیادی تحریر "Glam: Efficient scaling of language models with mixture-of-experts" ہے، جس نے موجودہ مقبول MoE آرکیٹیکچر کے لیے راستہ ہموار کیا۔

یں فی یانگ تصویر کا حوالہ: Google

گوگل کے دوران، اس نے PlaM سے لے کر Gemini1.5 اور Gemini2.5 تک تقریباً تمام بڑے ماڈلز کی تربیت میں گہری شرکت کی۔ جیف ڈین کی منصوبہ بندی کے تحت، اس نے 2023 میں Gemini کے ڈیٹا ٹیم (شامل کرکے تخلیقی ڈیٹا) کی قیادت کا ذمہ داری سنبھالی، جس کا ٹیم سائز بعد میں سینکڑوں افراد تک پہنچ گیا۔

تصویر کا حوالہ: Yinfei Yang کا لینکڈ ان

انڈریو دائی کے ساتھ کاروبار شروع کرنے والے، یین فی یانگ ہیں، جنہوں نے چار سال تک گوگل ریسرچ میں متعدد ماڈلز کی نمائندگی سیکھنے پر کام کیا، اور اس کے بعد ایپل میں شامل ہوئے جہاں انہوں نے متعدد ماڈلز کی ترقی کی ذمہ داری سنبھالی۔

Yinfei Yang تصویر کا حوالہ: arxiv

اس کی نمایندہ تحقیقی کامیابی، "Scaling up visual and vision-language representation learning with noisy text supervision"، نے بہ متعدد ماڈل ریپریزینٹیشن لرننگ کو فروغ دیا۔

ایلورین AI کے ملکہ مانند بانیوں میں سیت نیل بھی شامل ہیں، جو کہ پہلے ہارورڈ یونیورسٹی کے ای پی (اسٹنٹ پروفیسر) رہ چکے ہیں اور ڈیٹا اور اے آئی کے شعبے کے ماہر ہیں۔

الورین AI کے ملکہ مصنفین نے کون سی انقلابی تحریریں لکھیں، اس بات پر کیوں بحث کی جا رہی ہے؟ کیونکہ ان کا مقصد صرف انجینئرنگ کے سطح پر بہتری کرنا نہیں، بلکہ بنیادی ڈھانچے پر ایک نئی پیرادائم تبدیل کرنا ہے، جس سے AI کا تصور متن پر مبنی ذہانت سے تصویری ذہانت تک منتقل ہو جائے۔

اب AI ماڈلز کی حالت یہ ہے کہ جبکہ متن پر مبنی کاموں میں بہترین کارکردگی دکھاتے ہیں، لیکن سب سے اگرے ہوئے بہت بڑے متعدد ماڈلز بھی سب سے بنیادی ویژوئل گراؤنڈنگ کاموں میں ناکام ہو جاتے ہیں۔

مثلاً، کسی جزو کو کسی مکینیکل ڈیوائس میں بالکل ٹھیک طرح لگانا کیسے ہوتا ہے تاکہ وہ زیادہ درست اور زیادہ موثر طریقے سے کام کرے؟ اس قسم کے جسمانی مسائل小学生 کے لیے بہت آسان ہیں، لیکن موجودہ بہت متعدد ماڈلز کے لیے مشکل ہیں۔

اس کے لیے اب بھی مخلوقاتی علوم میں رہنمائی کی ضرورت ہے، انسانی دماغ میں، بصری حس بہت سے سوچنے کے عملوں کی بنیادی چھت ہے، انسانوں کی بصری اور فضائی استدلال کی صلاحیت، زبانی منطقی استدلال کے مقابلے میں بہت زیادہ پرانی ہے۔

مثلاً، کسی کو ایک لیبرنٹ میں راستہ دکھانے کے لیے الفاظ کے ذریعے بیان کرنا اسے پریشان کر دے گا، لیکن ایک خاکہ بنانا اسے فوراً سمجھنے میں مدد کرے گا۔

مثال کے طور پر، ایک پرندہ جو زبان نہیں جانتا، وہ بھی بصورتی طور پر جغرافیائی خصوصیات کو پہچان سکتا اور استدلال کر سکتا ہے، جس سے وہ عالمی سطح پر لمبی مہم چلا سکتا ہے۔ یہ ایک مضبوط اشارہ ہے کہ مشین کی استدلالی صلاحیت کو حقیقی طور پر آگے بڑھانے کے لیے، بصورتی طریقہ اکثر صحیح ترقی کا راستہ ہوگا۔

تو، تصور کیجیے کہ اگر ماڈل کی تعمیر کے آغاز سے ہی اس بیولوجیکل نظری احساس کو AI کے جینز میں ڈال دیا جائے، تو ایک ایسا اصلی بہ متھوڈ ماڈل تعمیر کیا جا سکتا ہے جو "ٹیکسٹ، تصویر، ویڈیو اور آڈیو کو ایک ساتھ سمجھے اور پروسیس کرے" — اس طرح ماڈل کو بصری سمجھ کی صلاحیت حاصل ہو جائے گی۔ اینڈریو ڈائی اور ان کی ٹیم ایک جنم جنمن "سنستھیسٹ" تعمیر کرنا چاہتے ہیں، جو مشین کو نہ صرف دنیا کو "دیکھنے" بلکہ اسے "سمجھنے" کا بھی طریقہ سکھائے۔

اینڈریو دائی اور ان کی ٹیم کے لیے، اصل "فزیکل دنیا" کو گہرائی سے سمجھنا، اگلی نسل کے مشین انسٹیلنس کے بڑے ارتقاء اور بالآخر "ویژول جنرل آرٹیفیشل انٹیلی جنس (Visual AGI)" تک پہنچنے کی اہم کلید ہے۔

بعد میں استعمال کی جانے والی VLM ویژول ریزننگ کی درست راہ نہیں ہے

پہلے بھی کئی ٹیمیں اس کام کو کرنے کی کوشش کر چکی تھیں، اصل میں اینڈریو دائی پہلے جیمینی ٹیم میں تھے، جو عالمی سطح پر متعدد ماڈلز کے شعبے میں بہت اگرے ہوئے تھے۔ لیکن روایتی متعدد ماڈلز اب بھی VLM (ویژول لینگویج ماڈل) پر مبنی ہیں، جن کا منطق "دو مراحل" پر مبنی ہے: پہلے بصری ان پٹ کو زبان میں تبدیل کیا جاتا ہے، اور پھر متن پر مبنی استدلال کیا جاتا ہے (کبھی کبھار باہری ٹولز کا استعمال کرتے ہوئے)۔

تاہم، پس منظر کی استدلالی صلاحیتیں بنیادی طور پر محدود ہوتی ہیں، جن میں ایک طرف ماڈل کے خیالات کا پیدا ہونا آسان ہوتا ہے، دوسری طرف بہت سے ویژوئل کاموں کو الفاظ کے ذریعے درست طور پر بیان نہیں کیا جا سکتا۔

اس کے علاوہ، نینو بانانا جیسے ویژول جنریشن ماڈلز، متعدد ماڈلیٹی جنریشن میں عظیم صلاحیت رکھتے ہیں، لیکن جنریشن کی صلاحیت اور استدلال کی صلاحیت ایک جیسے نہیں ہیں، وہ جنریشن سے پہلے کا “سوچنا” بنیادی طور پر زبانی ماڈلز پر منحصر ہے، اصل استدلال کی صلاحیت نہیں۔

وہ مدلز جو ویژول دنیا کی جگہ، ساخت اور تعلقات کی پیچیدگی کو حقیقی طور پر سمجھ سکیں، ان کے لیے بنیادی ٹیکنالوجی میں انقلابی نوآوری کی ضرورت ہوگی۔

تو، نوآوری کیسے کریں؟ ایلورین AI کے کچھ بنیادی افراد نے متعدد ماڈلز کے شعبے میں سالوں تک کام کیا ہے، اور ان کا طریقہ یہ ہے: متعدد ماڈل تربیت کو متعدد ماڈل استدلال کے لیے ڈیزائن کی گئی نئی ساخت کے ساتھ گہرا امتزاج کرنا۔ تصویر کو ایک ساکت ان پٹ کے طور پر دیکھنے کی روایتی رویہ کو چھوڑ دیا گیا، اور ماڈل کو براہ راست ویژول ریپریزنٹیشنز کے ساتھ تعامل کرنے اور ان پر عمل کرنے کے لیے تربیت دی گئی تاکہ وہ خود بخود ان کی ساخت، تعلقات اور فزیکل پابندیوں کو سمجھ سکے۔

دوسرا اہم عنصر ڈیٹا ہے، جو ان ماڈلز کی کارکردگی اور کامیابی یا ناکامی کا فیصلہ کرتا ہے۔

انڈریو دائی نے کہا کہ وہ ڈیٹا کی معیار، ڈیٹا کے مکس کے تناسب، ڈیٹا کے ذرائع اور ڈیٹا کی تنوع پر زور دیتے ہیں، اور ڈیٹا لیورل میں نوآوری کی ہے، ویژول سپیس میں استدلال کے لینک کو دوبارہ تعمیر کیا ہے، اور سنٹھیٹک ڈیٹا کو بڑے پیمانے پر اور گہرائی سے استعمال کیا ہے۔

ان کوششوں کو ملا کر، ایک نیا AI سسٹم وجود میں آئے گا جو سادہ بصری “感知” کے علاوہ اعلیٰ بصری “استدلال” تک جائے گا۔

یہ AI سسٹم ویژول ریزننگ بنیادی ماڈل ہو سکتا ہے: یعنی ایک انتہائی عام ماڈل بنانا جو خاص صلاحیتوں کے مجموعے پر انتہائی بہترین کارکردگی دکھائے، اور یہ خاص صلاحیت ویژول ریزننگ ہے۔

چونکہ یہ ایک جنرل پریمیئر مدل ہے، اس کے استعمال کے شعبے وسیع ہونے چاہئیں۔

سب سے پہلے، روبوٹس کے شعبے میں یہ طاقتور نظام کا بنیادی نیورل سینٹرل ہو سکتا ہے، جو اسے مختلف ناپردو ماحولوں میں خود مختار طور پر کام کرنے کی صلاحیت دیتا ہے۔

مثلاً، روبوٹ کے مقابلے میں، ایک روبوٹ کو خطرناک ماحول میں کسی اچانک سیکیورٹی خرابی کا حل نکالنے کے لیے بھیجا جائے۔ اس کے لیے روبوٹ کو تیز اور درست فوری فیصلے لینے کی ضرورت ہوتی ہے۔ اگر روبوٹ کے پاس گہرے استدلال کی بنیادی ماڈل نہ ہو، تو لوگ اسے بے ترتیب طریقے سے بٹن دبانے یا لیور چلانے کی اجازت نہیں دیں گے۔ لیکن اگر اس کے پاس بہت مضبوط استدلال کی صلاحیت ہو، تو وہ سوچ سکتا ہے: “اس پینل کو آپریٹ کرنے سے پہلے، شاید میں پہلے اس لیور کو ڈاؤن کر دوں، سیکورٹی محفوظ نظام کو فعال کر دوں۔”

اسی طرح، آفت کے انتظام کے حوالے سے، بصری استدلال والے ماڈل سیٹلائٹ تصاویر کے تجزیے کے ذریعے جنگل کی آگ کی نگرانی اور روک تھام کر سکتے ہیں؛ انجینئرنگ کے شعبے میں، یہ پیچیدہ بصری ڈرائیوں، سسٹم سکیمیٹکس کو درست طریقے سے سمجھ سکتا ہے، اس صلاحیت کا مقصد یہ ہے کہ فزیکل دنیا کے عمل کے قوانین اور صرف کوڈ والی دنیا میں بنیادی فرق ہے، آپ صرف کچھ لائنیں کوڈ ٹائپ کرکے ایک طیارے کے ونگ کا ڈیزائن نہیں بنा سکتے۔

تاہم، ابھی تک الورین AI کے ماڈل اور صلاحیتیں صرف کاغذ پر ہیں، وہ 2026 میں ایک ایسا ماڈل جاری کرنے کی منصوبہ بندی کر رہے ہیں جو ویژول ریزننگ کے شعبے میں SOTA سطح تک پہنچے گا، جبکہ اس وقت ان کی دعوؤں کی تصدیق کی جا سکے گی۔

جب AI کو واقعی "بصری استدلال" کی صلاحیت حاصل ہو جائے، تو وہ فزیکل دنیا کو کیسے تبدیل کر دے گا؟

AI کو حقیقی فزیکل دنیا کو سمجھنے اور اس پر اثر ڈالنے کے لیے ٹیکنالوجی کئی بار ترقی کر چکی ہے۔

سنتی CV کے دور کی تصویر شناخت سے لے کر جنریٹو AI کی تصویر جنریٹن ماڈلز/بہ متغیر ماڈلز، اور پھر دنیا کے ماڈلز تک، فزیکل دنیا کی سمجھ مسلسل بہتر ہوتی جا رہی ہے۔

اور ویژول ریزننگ کے بنیادی ماڈل، جو ویژول ریزننگ کو ممکن بناتے ہیں، مزید ترقی کر سکتے ہیں، کیونکہ AI اس طرح فزیکل دنیا کو گہرائی سے سمجھ سکتا ہے اور اس طرح اعلیٰ سطح کی مشین انٹیلی جنس حاصل کر سکتا ہے۔

تصور کیجیے کہ جب گہری سمجھ اور باریکی والے ماڈلز جسمانی ذہانت اور AI ہارڈویئر صنعتوں کو "چارج" کرتے ہیں، تو ان کے заعہدے کا دائرہ کار بڑھ جاتا ہے۔ مثال کے طور پر، روبوٹس صنعتی پیداوار یا طبی دیکھ بھال کے شعبوں میں زیادہ قابل اعتماد طریقے سے کام کر سکتے ہیں؛ جبکہ AI ہارڈویئر، خاص طور پر پہننے والے ڈیوائسز، زیادہ ذکی ذاتی اسسٹنٹس بن جاتے ہیں۔

تاہم، ان ٹیکنالوجیز کے نیچے، ہمیشہ ڈیٹا ہوتا ہے۔ پہلے Andrew Dai نے بھی کہا تھا کہ ڈیٹا کی معیار، ڈیٹا کا مکس نسبت، ڈیٹا کے ذرائع اور ڈیٹا کی تنوع، ماڈل کی کارکردگی کو طے کرتی ہے۔

فیزیکل AI کے شعبے میں، چینی کمپنیاں ماڈل اور ڈیٹا دونوں سطحوں پر ٹیکسٹ بڑے ماڈلز کے مقابلے میں دنیا کی قیادت کے قریب تر ہیں۔ اگر وہ ڈیٹا اور زیادہ وسیع ایپلیکیشن سیناریوز کے فائدے کا استعمال کرتے ہوئے اپنی ترقی کی رفتار بڑھا دیں، تو جسمانی ذکاوت یا AI ہارڈویئر، چاہے صنعت، طب یا گھریلو استعمال کے لیے ہو، اس کے لیے قیادت حاصل کرنے کے زیادہ مواقع ہیں، اور بالکل امکان ہے کہ عالمی سطح کی کمپنیاں بھی نکل آئیں۔