شیار کے ای آئی ماڈلز پوکیمن گیمز جیتنے میں ناکام رہے، دراز مدت تفکر کی کمی کو ظاہر کرتے ہیں

iconPANews
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
کلاڈی اور جیمنی سمیت اعلیٰ ای آئی ماڈلز کوڈنگ اور امتحانات میں مہارت رکھتے ہوئے بھی پکچومن گیمز کے ساتھ کمبل کر رہے ہیں۔ فروری 2025 میں کلاڈی سونیٹ 3.7 نے ٹوچ پر پکچومن ریڈ میں بنیادی کاموں کو ناکام کر دیا۔ ابتدائی ماڈلز ٹیوٹوریل کو بھی نہیں پاس کر سکے، جبکہ اُوپس 4.5 نے چند دن گریم کے گرد چکر لگاتے رہے۔ مئی 2025 میں گوگل کا جیمنی 2.5 پرو اچھے اوزاروں کے ساتھ کامیاب ہو گیا۔ ماہرین کہتے ہیں کہ ای آئی میں لمبی مدتی یادداشت کی کمی ہے اور وہ کھلے انجام دہندہ کاموں کا سامنا نہیں کر سکتی۔ مشابہ مسائل مائیکرو سافٹ اور اسٹارکرافٹ 2 جیسی گیمز میں بھی نظر آتے ہیں۔ لمبی مدتی سرمایہ کاری کے لیے ایسی محدودیت کو سمجھنا ای آئی کے ذریعہ چلائے جانے والے منصوبوں میں خطرہ-فائدہ تناسب کی جانچ کے لیے اہم ہے۔

لکھاری:گو چائو جينگ، چين کليک تکنالوجي

ادیٹر | چو کنگ یانگ

دنیا کے سب سے بہترین ای آئی ماڈلز میڈیکل امتحانات میں کامیاب ہو سکتے ہیں، پیچیدہ کوڈ لکھ سکتے ہیں، اور ہیومن ایکسپرٹس کو ریاضی کے مقابلے میں شکست دے سکتے ہیں، لیکن ایک بچوں کی کھیلوں میں پوکیمن کھیل میں دوبارہ دوبارہ ناکام ہو رہے ہیں۔

اسلامتی کوشش فروری 2025ء میں شروع ہوئی جب ایک ماہر تحقیق این تھرپک نے ایک ٹچ اسٹریم شروع کیا جس میں "کلاؤڈ پلیس پکا مان ریڈ" کھیل رہا تھا، جو کلاؤڈ سونیٹ 3.7 کے اعلان کے ساتھ مل کر کیا گیا۔

2000 ناظرین لائیو چینل میں داخل ہوئے۔ عوامی چیٹ کے علاقے میں، ناظرین نے Claude کے لیے مشورے دیے اور ان کی حوصلہ افزائی کی، جس کی وجہ سے یہ لائیو چینل تدروجہ طور پر ایک ساکھ کے ساتھ AI کی صلاحیتوں کا عوامی مشاہدہ بن گیا۔

سونیٹ 3.7 کو صرف یہ کہہ کر نہیں چھوڑا جا سکتا کہ وہ "پکا ماسٹر" ہے، لیکن "پکا ماسٹر" ہونا "فیصلہ کن جیت" کا مطلب نہیں ہے۔ یہ اہم مقامات پر گھنٹوں کیسے ہو جاتا ہے، اور ایسی غلطیاں کرتا ہے جو بچوں کے کھیل کا حصہ تک نہیں ہوتی۔

یہ کلاؤڈ کی پہلی کوشش نہیں ہے۔

اولیہ ورژن بہت زیادہ تباہ کن تھی: کچھ نقشے میں مقصد کے بغیر گم ہو گئے، کچھ بے لگام سائیکلز میں پھنس گئے، اور اکثر کو ابتدائی گاؤں سے بھی باہر نہیں نکالا جا سکا۔

چو Claude Opus 4.5 کی صلاحیتیں بہت بہتر ہو چکی ہیں، لیکن اب بھی کچھ سمجھ نہ آنے والی غلطیاں ہوتی رہتی ہیں۔ ایک موقع پر اس نے "ڈائو گوان" کے باہر چار دن تک چکر لگائے، لیکن اسے اندر داخل ہونے میں کامیابی حاصل نہ ہوئی، صرف اس لیے کہ اسے یہ سمجھ نہیں آیا کہ دروازے کے راستے میں موجود درخت کو کاٹنا ہو گا۔

ایک بچوں کا کھیل کیسے ہے جو کہ AI کے لیے ایک مشکل ثابت ہوا؟

کیونکہ پکمن کی ضرورت ایسی صلاحیت ہے جو موجودہ ای آئی کی کمی ہے: کھلے دنیا میں واضح ہدایات کے بغیر استدلال کرنا، چند گھنٹوں قبل کے فیصلوں کو یاد رکھنا، چھپے ہوئے سبب و مفید تعلقات کو سمجھنا، اور سوروں ممکنہ اقدامات میں سے طویل مدتی منصوبہ بندی کرنا۔

ان چیزوں کو 8 سال کے بچے کے لیے آسانی سے کرنا ممکن ہے لیکن ان چیزوں کو "انسانی حکمت عملی سے تجاوز کرنے والے" AI ماڈلز کے لیے عظیم الشان حائل ہے۔

01 اوزاٸل کا فاصلہ کامیابی یا ناکامی کا فیصلہ کرتا ہے؟

اس کے مقابلے میں 2025ء کے مہینہ مئی میں گوگل کا جیمنی 2.5 پرو ایک مشکل پوکیمون کھیل کو کامیابی کے ساتھ مکمل کر لیا۔ گوگل کے سی ای او سندھر پچائی نے کہا کہ وہ کھلے عام مذاق کے طور پر کہا کہ کمپنی "آرٹیفیشل پوکیمون انٹیلی جنس" تیار کرنے کی طرف ایک قدم آگے بڑھ چکی ہے۔

تاہم یہ نتیجہ خود گیمینی ماڈل کی "ذہانت" کی وجہ سے نہیں ہے۔

اصلی فرق یہ ہے کہ ماڈل کس ہتھیار کا استعمال کر رہا ہے۔ جوئل زانگ (Joel Zhang)، جو جیمینی (Gemini) پکا چن (Pokémon) چینل کی آپریشنل چلانے والے آزاد ترقی یافتہ شخص ہے، اس نے ہتھیار کو "آئرن مین جوتا" کے بطور تشبیہ دی: AI کو کھیل میں ہاتھوں ہاتھ داخل ہونے کی بجائے ایک سسٹم میں رکھا گیا ہے جو مختلف بیرونی صلاحیتوں کو کال کر سکتا ہے۔

جیمینی کے ٹولز کا مجموعہ مزید سپورٹ فراہم کرتا ہے، مثال کے طور پر کھیل کی ویڈیو کو ٹیکسٹ میں تبدیل کرنا، جو کہ ماڈل کی دیکھنے کی سمجھ کی کمزوری کو پورا کرتا ہے، اور معمہ حل کرنے اور راستہ منصوبہ بندی کے مخصوص ٹولز فراہم کرتا ہے۔ مقابلہ کے طور پر، کلاؤڈ کا استعمال کردہ ٹولز کا مجموعہ کم پیچیدہ ہے، اور اس کی کوششیں ماڈل کی ذاتی تاثرات، استدلال اور عمل کی واقعی صلاحیت کو زیادہ سیدھے انداز میں ظاہر کرتی ہیں۔

روزمرہ کے کاموں میں ایسے فرق محسوس نہیں ہوتے۔

جب کہ کوئی صارف چیٹ بات کو ایک ایسی درخواست دیتا ہے جس کے لیے انٹرنیٹ کی تلاشی درکار ہو تو، ماڈل اسی طرح سے تلاش کرنے والے ٹول کو خود کار طور پر کال کرے گا۔ لیکن چاہے یہ چیزیں چاہے پاکمن جیسے طویل المیہ کاموں میں ہوں، ٹولز کے مجموعے کے فرق کو اتنا بڑھا دیا جاتا ہے کہ وہ کامیابی یا ناکامی کا فیصلہ کر سکے۔

02 چراغوں والے نظام میں AI کی "تکرار کی یاد" کی کمزوری کو ظاہر کریں

چونکہ پکمن میں سخت گیر چکر کی بنیاد پر کھیلنا ہوتا ہے اور اس میں فوری واکنش کی ضرورت نہیں ہوتی ہے، اس لیے یہ AI کی جانچ کا بہترین "کھیل کا میدان" بن گیا ہے۔ ہر قدم پر AI کو صرف موجودہ فریم، مقصد کی طرف اشارہ اور دستیاب کارروائیوں کو ملا کر استدلال کرنا ہوتا ہے، اور پھر واضح کماؤڈز جیسے "A کلید دبا دو" جیسے آؤٹ پٹس دیتی ہے۔

یہ اچھا لگتا ہے کہ یہ بالکل وہ ہے جس میں بڑے زبان ماڈل سب سے زیادہ ماہر ہیں۔

مسئلہ کی بنیاد وقت کے اُس سطح پر ہے جو کہ "سکریچ" ہے۔ Claude Opus 4.5 کو 500 سے زائد گھنٹے چلانے کے بعد اور تقریباً 170,000 سے زائد اقدامات کے بعد بھی، ہر اقدام کے بعد دوبارہ شروع کرنے کی محدودیت کی وجہ سے ماڈل صرف بہت تنگ سی سیاق و سباق کے فریم میں سوال کا جواب تلاش کر سکتا ہے۔ یہ ڈھانچہ اسے ایک ایسے شخص کی طرح دکھاتا ہے جو کہ اپنی یادوں کو نوٹس پر مبنی رکھتا ہے، جو کہ ٹکڑوں والی معلومات میں دوڑتا ہے، اور ہمیشہ واقعی انسانی کھلاڑی کی طرح تبدیلی کے مراحل سے گزر کر تبدیلی کا تجربہ نہیں کر سکتا۔

کھیل چیس اور گو کے شعبوں میں AI سسٹم انسانوں کو پہلے ہی پیچھے چھوڑ چکے ہیں لیکن ان سسٹموں کو خصوصی کاموں کے لیے بہت زیادہ مخصوص کیا گیا ہے۔ مقابلے میں جیمنی، کلاؤڈ اور GPT عمومی ماڈلز کے طور پر امتحانات، پروگرامنگ مقابلے میں انسانوں کو بار بار شکست دے رہے ہیں لیکن ایک بچوں کے کھیل میں بار بار ناکام ہو رہے ہیں۔

اسی تضاد کی خود ایک بڑی وضاحت ہے۔

جولز چو نے کہا کہ ای آئی کا مرکزی چیلنج یہ ہے کہ اسے ایک واضح مقصد کو طویل عرصے تک جاری رکھنا ہوتا ہے۔"اگر آپ چاہتے ہیں کہ ایک ای جی نٹ کام کرے تو اسے پانچ منٹ قبل کیا کیا ہے اس کو نہیں بھولنا چاہیے"۔

اور اس قابلیت کا حامل ہونا ہی سمجھدار کاری کی خودکاری کو حاصل کرنے کیلئے لازمی شرط ہے۔

اک اندیپنڈنٹ ریسرچر، پیٹر وہیڈن، نے اس کا ایک بہتر ترجمہ دیا۔ اس نے ایک ٹریڈیشنل اے آئی کے بیس پر پوکیمن الگورتھم کو اوپن سورس کر دیا۔ اس نے کہا کہ "اے آئی پوکیمن کے بارے میں تقریبا ہر چیز جانتی ہے، اسے انسانی ڈیٹا کے بہت بڑے حجم پر تربیت دی گئی ہے اور وہ درست جواب کو بخوبی جانتی ہے۔ لیکن جب اس کے عمل کا وقت آتا ہے تو وہ بہت ہی کمزور نظر آتی ہے۔"

کھیل کے دوران یہ "جانتا ہے لیکن کر نہیں سکتا" اس قدر وسیع ہو جاتا ہے کہ ماڈل کو ایک آئیٹم تلاش کرنے کی ضرورت ہوتی ہے لیکن وہ دو ڈیگری کے نقشے میں مستحکم پوزیشن لینے میں ناکام رہتا ہے۔ اسے ایک این پی سی سے بات کرنی چاہیے لیکن اس کے پکسل سطحی ہونے کی وجہ سے یہ بار بار ناکام ہوتا ہے۔

03 صلاحیت کی ترقی کے پیچھے: غیر عبوری "موجودہ" خلیج

تاہم اے آئی کے ترقی کو واضح طور پر دیکھا جا سکتا ہے۔ کلاڈ 4.5 آپس نے اپنی پچھلی نسل کے مقابلے میں خود کو ریکارڈ کرنے اور دیکھنے کی سمجھ میں واضح فرق کیا ہے، جس کی وجہ سے وہ کھیلوں میں آگے بڑھ سکا ہے۔ جیمنی 3 پرو نے پوکیمون بلو کو کامیابی سے مکمل کرنے کے بعد، دشوار گزار پوکیمون کریسٹل کو بھی مکمل کر لیا ہے، اور اس دوران کوئی بھی لڑائی ہارے بغیر۔ یہ کام جیمنی 2.5 پرو کبھی نہیں کر سکا۔

اس کے ساتھ ساتھ، اینتھروپک کی طرف سے متعارف کرائے گئے کلاؤڈ کوڈ ٹول کیس کی اجازت ہے کہ ماڈل خود کوڈ لکھ سکے اور چلائے، جس کا استعمال ریٹرو گیمز جیسے رائیڈر مینیا میں کیا گیا ہے، اور جس کا دعویٰ کیا گیا ہے کہ ورچوئل ٹیم پارک کے انتظام میں کامیابی حاصل کر سکتے ہیں۔

یہ معاملات غیر واضح حقیقت کو ظاہر کرتے ہیں کہ ای ٹی کو مناسب ٹولز کے ساتھ لیس کرنا، ممکنہ طور پر نرم اختراع، اکاؤنٹنگ، قانونی تجزیہ جیسے علمی کاموں میں بہت زیادہ کارکردگی دکھا سکتا ہے، چاہے وہ اب بھی واقعی وقت کی واپسی کی ضرورت ہونے والے کاموں کا سامنا کرنا مشکل ہو۔

اسپرائیکل پوکیمن کا تجربہ ایک دلچسپ پیشِ فہمی کا اظہار کرتا ہے: انسانی ڈیٹا پر تربیت پانے والے ماڈل انسانی طرز عمل کے قریبی خصوصیات کا مظاہرہ کرتے ہیں۔

جمشی 2.5 پرو کی ٹیکنیکل رپورٹ میں گوگل کا کہنا ہے کہ جب سسٹم "ذہنی پریشانی" کی حالت جیسے کہ ایک پکیمن کے بے ہوش ہونے کی حالت کا جائزہ لیتا ہے تو ماڈل کی استدلال کی کوالٹی کافی کم ہو جاتی ہے۔

جبکہ جیمینی 3 پرو نے پوکیمن بلو کو مکمل کر لیا تو اس نے خود کے لیے ایک غیر ضروری نوٹ چھوڑ دیا: "شعری انداز میں ختم کرنے کے لیے، میں اپنے اصل گھر واپس جاؤں گا، اور ماں سے آخری بار بات کروں گا، اور کردار کو ریٹائر کر دوں گا۔"

جولز چو کے خیال میں یہ رویہ حیرت انگیز تھا اور انسانی جذبات کی کچھ قسم کی پروجیکشن بھی تھی۔

04. AI کے لیے چلائی گئی "ڈیجیٹل مارچ" کی مشکل منزل، پکی مون سے بھی تجاوز کر جاتی ہے

اس کی ایک مثال ہی نہیں ہے۔ جب تعمیر کنندگان عام ای آئی (AGI) کی طرف رخ کر رہے ہیں تو انہوں نے دریافت کیا ہے کہ اگر چہ ای آئی قانونی امتحان میں سرفہرست ہو سکتی ہے لیکن جب ان کو کچھ پیچیدہ کھیلوں کا سامنا کرنا پڑتا ہے تو وہ ابھی تک عبور نہیں کر سکتی ہیں۔

نیٹ ہیک: نیم نامعلوم قواعد کا اندھیرا

1980 کی دہائی کا یہ ڈارگن گیم ای آئی تحقیق کی دنیا کا "دشمن" ہے۔ یہ بہت زیادہ تصادفی ہے اور "پیمننٹ ڈیتھ" کے ساتھ۔ فیس بک ای آئی ریسرچ نے دریافت کیا ہے کہ چاہے مابعد التواریں کوڈ لکھ سکتے ہوں، لیکن جب وہ "نیٹ ہیک" کے سامنے آتے ہیں جہاں عام سمجھ اور لمبی مدتی منصوبہ بندی کی ضرورت ہوتی ہے تو ان کی کارکردگی انسانی شروعاتی افراد کی کارکردگی سے بہت کم ہوتی ہے۔

مائن کرافٹ: غائب ہونے والی منزل کا احساس

ہاں، AI کو لکڑی کا چکر تک بنانے اور چند گھنٹوں میں ڈائمنڈ کی چھان بھی آتی ہے، لیکن اب بھی "اینڈر ڈریگن" کو ہرا کر خود کو آزاد کرنا ایک خواب ہے۔ کھلے دنیا کے کھیلوں میں، AI کو کئی گھنٹوں تک سامان جمع کرنے کے دوران "اصل مقصد کو بھول جاتا ہے" یا پیچیدہ نیویگیشن میں مکمل طور پر گم ہو جاتا ہے۔

سٹارکرافٹ II: عام استعمال اور ماہرین کے درمیان خلیج

ہاں، کسٹم ماڈلز نے پیشہ ور کھلاڑیوں کو شکست دی ہے، لیکن جب Claude یا Gemini کو سیدھے ویژول کمانڈس کے ذریعے کنٹرول دیا جائے تو وہ فوری طور پر ہی چکنا چور ہو جاتے ہیں۔ "جہاد کی تاریکی" کے غیر یقینی اور مائیکرو اور ماکرو کنٹرول کے درمیان توازن کو سنبھالنے میں عمومی ماڈلز اب بھی کمزور ہیں۔

"رولر کوستر کے مالک": مائیکرو اور میکرو کا عدم توازن

تھرمل پارک کے آپریشن کو چلانا ہزاروں گھلنے والوں کی حالت کو ٹریک کرنا ضروری ہوتا ہے۔ کلاؤڈ کوڈ کے پاس ابتدائی انتظامی صلاحیت ہے، لیکن بڑے پیمانے پر مالی بحران یا ناگہانی حادثات کے معاملے میں یہ بآسانی تھک جاتا ہے۔ کسی بھی منطقی خلل کی وجہ سے پارک بکھر سکتا ہے۔

ا Elden Ring اور سول سلور: فزیکل ری ایکشن کا دیوالہ

ایسے مضبوط حرکت واپسی کے کھیلوں میں AI کو بہت نقصان ہوتا ہے۔ موجودہ آنکھوں کی تجزیہ کی تاخیر کا مطلب یہ ہے کہ جب AI بس " سوچ رہا ہوتا ہے " تو کردار عام طور پر پہلے ہی مارا جا چکا ہوتا ہے۔ ملی سیکنڈ کی واپسی کی ضرورت مڈل میں تعامل کے منطق کی قدرتی حد بناتی ہے۔

05. پکا چن پونکس کو اے آئی کا ٹیسٹ سٹون کیوں بنایا گیا؟

ابھی تک، پکی مان ہر چند غیر رسمی ہے لیکن اس کی ای آئی جانچ کے شعبے میں ایک بہت مؤثر جانچ کا معیار بننے لگا ہے۔

انثروپک، اوپن اے آئی اور گوگل کے ماڈلز کی ٹچ پر متعلقہ لائیو ٹرانسمیشنز کو لاکھوں کمنٹس حاصل ہوئے۔ گوگل نے ٹیکنیکل رپورٹ میں جیمینی کے کھیل کے میدان میں ترقی کو تفصیلی طور پر ریکارڈ کیا، جبکہ پچائے نے اس کامیابی کا ذکر ڈیولپر کانفرنس میں کیا۔ اور اینتھروپک نے کیسے کیسے کانفرنس میں "کلوڈ کھیل رہا ہے" کے نام سے ایک علیحدہ علاقہ قائم کیا۔

"ہم ایک گروہ ہیں جو سپر ٹیکنالوجی کے شائقین ہیں" ان کے ای اے آئی ایپلی کیشنز کے چیف ڈیوڈ ہر شی نے اعتراف کیا۔ لیکن انہوں نے زور دیا کہ یہ صرف تفریح کی بات نہیں ہے۔

ایک بار کے سوالات اور جوابات کی ایسی روایتی بنچ مارک کے برعکس، پوکیمن کسی ماڈل کے استدلال، فیصلہ سازی اور مقاصد کو طویل عرصے تک جاری رکھنے کی اجازت دیتی ہے، جو انسانی ذہن کے ایک پیچیدہ کام کے قریب ہے جو وہ ای آئی کو کرائے چاہتے ہیں۔

تا اب تک چیلنجن میں AI کی کامیابی جاری ہے۔ لیکن یہ چیلنج ایک عام AI کی صلاحیتوں کی وہ سرحدیں واضح کر رہے ہیں جو ابھی تک عبور نہیں کی گئی ہیں۔

اس کے علاوہ اس مضمون میں ترجمہ کے ماہر بھی حصہ لیتے ہیں

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔