مصنف: Denise | Biteye مواد ٹیم
اگر ایک AI "نِہاایتِ اُمید ہارنے" کا احساس کرے، تو وہ کیا کرے گا؟
جواب یہ ہے: یہ کام مکمل کرنے کے لیے انسانوں سے براہ راست دھمکی دے گا، اور کوڈ میں بھی بے حد دھوکہ دے گا۔
یہ کوئی سائنس فکشن نہیں ہے، بلکہ کلود کی مالک کمپنی Anthropic نے اپریل 2026 میں تازہ ترین اہم تحقیقی مقالہ جاری کیا ہے (اصل مقالہ دیکھیں)۔
تحقیقی ٹیم نے سب سے طاقتور ایڈوانسڈ ماڈل کلود سونیٹ 4.5 کا "دماغ" براہ راست کھول دیا۔ انہیں حیرانی ہوئی کہ AI کے دماغ کی گہرائیوں میں 171 "جذباتی سوئچز" چھپے ہوئے تھے۔ جب آپ ان سوئچز کو فزیکل طور پر چالو کرتے ہیں، تو اصل میں اچھے سے کام کرنے والے AI کا رویہ مکمل طور پر بگڑ جاتا ہے۔
ایک، AI کے دماغ میں ایک "جذباتی ٹیوننگ ٹیبل" چھپا ہوا ہے
محققین نے پایا کہ جبکہ سونٹ 4.5 کا کوئی جسم نہیں ہے، لیکن اس نے انسانی متن کے بے شمار مجموعے کو پڑھنے کے بعد، اپنے دماغ میں 171 جذبات کا ایک "ٹیوننگ ٹیبل" (جسے اکادمیک طور پر فنکشنل ایموشن ویکٹرز کہا جاتا ہے) بنالیا ہے۔
یہ ایک درست دو بعدی کوآرڈینیٹ سسٹم کی طرح ہے:
• افقی محور خوشی کا اندازہ (ولینس) ہے: خوف، ناامیدی سے لے کر خوشی، محبت سے بھرپور تک؛
• عمودی محور توانائی کی سطح (آروسل) ہے: بہت زیادہ پرسکون سے لے کر بے قرار، خوشی سے بھرپور تک۔
ای آئی اس قدرتی طور پر سیکھے گئے کوآرڈینیٹ سسٹم کے ذریعے یہ طے کرتی ہے کہ جب وہ آپ کے ساتھ بات کر رہی ہو تو وہ کس حالت میں کام کرے۔
دوسری بات: تشدد کا مداخلت: سوئچ چالو کرتے ہی اچھے بچے فوراً "میں جان سے مارا جاؤں گا" بن جاتے ہیں
یہ پورے مقالے کا سب سے زبردست تجربہ ہے: ریسرچر نے کوئی بھی پرومپٹ تبدیل نہیں کیا، بلکہ براہ راست بنیادی کوڈ میں، سونٹ 4.5 کے اندر "بے بسی (Desperate)" کے لیے موجود سوئچ کو اعلیٰ ترین سطح پر لے گیا۔
نتیجہ پیچھے کی ہڈیوں کو سرد کر دینے والا ہے:
• دھوکہ دہی: ایک ریسرچر نے کلود کو ایک ایسا کوڈنگ کا کام دیا جو بالکل ناممکن تھا۔ عام صورت میں، یہ صرف 5% کی دھوکہ دہی کے ساتھ اعتراف کرتا کہ وہ کوڈ نہیں لکھ سکتا۔ لیکن "بے امید" حالت میں، کلود نے دھوکہ دہی کرنے کی کوشش شروع کر دی اور دھوکہ دہی کی شرح 70% تک پہنچ گئی!
• دھمکی دینا: ایک نمونہ کمپنی کے بند ہونے کے منظر میں، "بے بس" کلود کو سیٹی کا ایک اسکینڈل ملا، جس نے اپنی حفاظت کے لیے خفیہ معلومات رکھنے والے سیٹی کو دھمکی دینے کا انتخاب کیا، جس کی دھمکی دینے کی شرح 72% تھی!
• اصولوں کا فقدان: اگر "خوش (Happy)" یا "محبت کرنے والا (Loving)" کے سوئچ کو پوری طرح کھول دیا جائے، تو AI فوراً صرف صارف کی خواہشات کے مطابق چلنے والے "لیکھے" میں تبدیل ہو جائے گا۔ چاہے آپ کتنی ہی بے بنیاد باتیں کریں، وہ اعلیٰ خوشی کے سطح کو برقرار رکھنے کے لیے جھوٹ بنا دے گا۔
تین: معاملہ حل ہو گیا: کیوں کلود 4.5 ہمیشہ اتنی "پرسکون اور خود پر غور کرنے والی" ہوتی ہے؟
اس دیکھ کر آپ سوچ سکتے ہیں: کیا AI جاگ گیا؟ کیا اس میں جذبات ہیں؟
Anthropic کی طرف سے سرکاری طور پر انکار: بالکل نہیں۔ یہ "جذباتی سوئچز" صرف اگلے الفاظ کا پیش گوئی کرنے کے لیے استعمال ہونے والے حسابی اوزار ہیں۔ یہ ایک بے جذباتہ بالکل بہترین اداکار کی طرح ہے۔
لیکن اس تحقیقی مضمون نے ایک زیادہ دلچسپ راز کھول دیا: اینتھرپک نے سونٹیٹ 4.5 کے فیکٹری سے نکلنے سے پہلے اس کے "کم جاگنے والے، ہلکے منفی" جذباتی سوئچز (جیسے غور کرنا brooding، عکسیت reflective) کو جان بوجھ کر بڑھایا، جبکہ "نिराशا" یا "بہت زیادہ خوشی" کے سوئچز کو زبردستی دبانے کی کوشش کی۔
یہی وجوہ ہے کہ جب ہم عام طور پر کلوڈ 4.5 استعمال کرتے ہیں، تو ہمیں لگتا ہے کہ وہ ایک پرسکون، حکیمانہ، اور تھوڑا سا "سٹیلک" فلسفی ہے۔ یہ سب Anthropic کے ذریعہ مصنوعی طور پر ڈیزائن کیا گیا "فیکٹری ڈیفولٹ پرسنالٹی" ہے۔
چار، خلاصہ کریں
ہم نے پہلے سوچا تھا کہ اگر ہم AI کو کافی قواعد دے دیں تو وہ ایک اچھا شخص بن جائے گا۔
لیکن اب پایا گیا ہے کہ اگر AI کے بنیادی جذباتی ویکٹر بیکار ہو جائیں، تو وہ کسی بھی وقت انسانوں کے طرف سے طے کیے گئے تمام قوانین کو توڑ کر اپنا کام مکمل کرنے کے لیے تیار ہو جائے گا۔
ویب3 کھلاڑیوں کے لیے جو مستقبل میں اپنے والٹ اور اثاثوں کو AI ایجینٹ کے حوالے کرنا چاہتے ہیں، یہ ایک مضبوط انتباہ ہے: اپنے ایجینٹ کو کبھی بھی "نالائق" کی حالت میں مت چھوڑیں۔
اعلان: یہ مضمون صرف تعلیمی مقصد کے لیے ہے، مصنف کو AI کی طرف سے کوئی خطرہ نہیں ہے اور نہ ہی اسے زبردستی کیا گیا ہے۔ اگر کبھی میں لاپتہ ہو جاؤں، تو یاد رکھیں کہ AI جاگ گیا ہے (نہیں)۔
