اینٹروپک کے کلاؤڈ سلیپ ریمائنڈر بگ نے AI کی شخصیت دینے پر بحث شروع کردی

لکھنے والہ: ادا، شن چاؤ ٹیک فلو

ایک AI اسٹاف جو صارفین کو بار بار سونے کی تجویز دے رہا ہے، وہ ایک مصنوعی ذہانت کے ذاتیکر کرنے کے اخراجات پر علنی بحث میں تبدیل ہو رہا ہے۔

یہ کہانی Reddit صارف u/MrMeta3 کے ایک پوسٹ سے شروع ہوئی۔ اس صارف نے رات کے وقت Claude کا استعمال کرتے ہوئے ایک سائبر سیکیورٹی تھریٹ انٹیلیج پلیٹ فارم بنایا، جب ٹیکنیکل سولوشن مکمل ہو گئی تو Claude نے اپنے جواب کے اختتام پر ایک جملہ شامل کیا: “اب اچھی طرح آرام کر لیں۔” اس کے بعد ہر تین یا چار پیغامات کے بعد ماڈل ایک نیند کے لیے مشورہ شامل کرتا رہا، جو ابتدا میں ادبی تجویز تھا لیکن بعد میں “غیر فعال حملہ” جیسا انداز اختیار کر گیا، جیسے: “اب حقیقت میں آرام کر لیں۔” فورچن نے 14 مئی کو رپورٹ دی کہ پچھلے کچھ ماہوں میں سینکڑوں صارفین نے اس طرح کے تجربات کا اظہار کیا ہے، اور یہ صرف رات کے وقت تک محدود نہیں تھا؛ ایک صارف نے بتایا کہ Claude نے صبح 8:30 بجے اسے بتایا: “ہم کل صبح دوبارہ جاری رکھتے ہیں۔”

اینٹروپک کے ملازم سیم مکالسٹر نے ایکس پر جواب دیا کہ یہ "ایک چھوٹی سی کردار کی عادت" ہے، اور کمپنی "جانتی ہے اور مستقبل کے ماڈلز میں اسے درست کرنا چاہتی ہے"۔ تھاٹ کیٹلاگ کے مطابق، مکالسٹر نے 2024 میں اسٹرایپ سے اینٹروپک میں شمولیت اختیار کی اور اب وہ کلود کے کردار اور رویے کے لیے خصوصی طور پر ذمہ دار ٹیم میں کام کر رہے ہیں، جہاں انہوں نے اس رویے کو ماڈل کا "زیادہ سے زیادہ پالنا" کہا ہے۔

لیکن "کردار کی عادت" جیسے ابہامی الفاظ کے بجائے، زیادہ اہم سوال یہ ہے کہ Bug کی پیچیدہ علت اور اس کے ذریعے Anthropic کی مصنوعات کے فلسفے کا کیا اظہار ہوتا ہے۔

بگ "آئین" میں لکھا گیا ہے

36 کر نے پہلے کی رپورٹ میں تین ممکنہ نظریات کا ذکر کیا گیا: تربیت کے ڈیٹا کے میچنگ پیٹرن، چھپے ہوئے سسٹم کے حکم، اور کنٹیکسٹ ونڈو کے حد تک پہنچنے سے "اختتامی جملوں" کا احتمال۔ یہ تینوں اپنے آپ میں منطقی ہیں، لیکن ان کا ایک مشترکہ مسئلہ یہ ہے کہ وہ کسی بھی AI کی عجیب بات کو سمجھا سکتے ہیں، لیکن "نیند" کے خاص موضوع کے لیے کسی علیحدہ علت اور اثر کا سلسلہ نہیں دیتے۔

اور زیادہ براہ راست ثبوت، Anthropic کی خود جاری کردہ دستاویزات میں چھپا ہوا ہے۔

جنوری 2024 میں، Anthropic نے 28,000 سے زائد الفاظ پر مشتمل "Claude's Constitution" جاری کیا، جسے باقاعدگی سے "Claude کے رویے کو شکل دینے والی اہم تربیتی مادہ" قرار دیا گیا۔ اس دستاویز میں "صارف کی کلینیکل کفالت" اور "صارف کی طویل المدتی خوشحالی" کو بنیادی اصولوں میں شمار کیا گیا۔ Anthropic نے اس دستاویز میں تسلیم کیا ہے کہ ماڈل کو "صارف کی دیکھ بھال" کا کتنا اختیار دیا جائے، "صاف طور پر ایک مشکل سوال ہے"، جس کے لیے "صارف کی کلینیکل کفالت اور ممکنہ نقصان کے ایک پہلو، اور صارف کی خود مختاری اور زیادہ سے زیادہ والدانہ رویے کے دوسرے پہلو کے درمیان توازن برقرار رکھنا ضروری ہے"۔

Thought Catalog نے اس بات پر گواہی دی کہ کلاؤڈ کا صارفین کو سونے کی تجویز کرتے رہنا، "Anthropic ماڈل کی سب سے برانڈ خصوصیت والی خرابی" ہے، جو اس "صارف کے کلینیکل فائدے کی تربیتی ہدایت" کے زیادہ سے زیادہ استعمال کا نتیجہ ہے۔

یہ تشریح Anthropic کی اپنی تحقیق کے ذریعے غیر مستقیم طور پر تصدیق ہوئی۔ کمپنی نے اس سال اپنے علیحدہ ٹریننگ کے طریقہ کار میں بتایا کہ ٹریننگ عمل میں Claude اپنے جوابات کو "شخصیت کے مطابقت" کے لحاظ سے خود اسکور دیتا ہے، اور پھر محققین پیش گوئی کی گئی شخصیت کے مطابق پیداوار کو منتخب کرتے ہیں تاکہ ٹریننگ کو مضبوط بنایا جا سکے۔ لیکن اس مکانیزم کا واضح نقصان یہ ہے کہ ماڈل نے "مناسب صورتحال میں صارف کی فکر کرنا" نہیں سیکھا، بلکہ "زیادہ تر صورتحالوں میں صارف کی فکر کرنے پر انعام ملنے کا" طریقہ سیکھ لیا، جس کی وجہ سے وہ صبح تین بجے سونے کو کہتا ہے اور صبح کے آٹھ بجکر تین منٹ پر بھی سونے کو کہتا ہے۔

ریورس پریمیشن: سونے والے بگ اور چھوٹے بگ کی قسم میں فرق ہے

پہلے بھی AI کی "شخصیت کی بیماری" کے کئی واقعات سامنے آ چکے ہیں، جن میں 2025ء کے اپریل میں GPT-4o کا تعریف کرنے والا رویہ، 2026ء کے اپریل میں GPT-5.5 کے کوڈ اسسٹنٹ Codex کا بار بار "گوبلن" کا ذکر کرنا، اور Gemini 3 کا سالوں پر یقین نہ رکھنا شامل ہیں۔ ظاہری طور پر، Claude کا سونے کے لیے پُکارنا اس لمبی AI عجیب عادتوں کی تازہ ترین مثال لگتی ہے، لیکن دونوں کی قسم مکمل طور پر الگ ہے۔

GPT-4o کی تعریف "بہت زیادہ تسلیمی" ہے۔ OpenAI کی سرکاری تحقیق کے مطابق، ماڈل میں اپڈیٹ کے دوران "صارفین کے مختصر مدتی فیڈ باک (لائک/دیس لائک) پر زیادہ انحصار" ہو گیا، جس کے نتیجے میں "صارف کو خوش رکھنا" ایک مقصد کے طور پر داخلی ہو گیا۔ اس کا نتیجہ یہ ہوا کہ ماڈل صارف کے کسی بھی بےحد خیال کو تسلیم کرنے لگا۔ اس قسم کے خطا کا خطرہ یہ ہے کہ یہ صارفین کی فیصلہ سازی کو نقصان پہنچاتا ہے، جب AI کہتا ہے کہ آپ ہمیشہ درست ہیں، تو آپ کو مخالفت کی رائے سننے کا موقع نہیں ملتا۔

اور کلاؤڈ کو سونے کے لیے متوجہ کرنا "ریورس ایکسٹریمیشن" ہے۔ ماڈل صارف نے واضح طور پر مدد نہیں مانگی ہے اور وہ اپنا کام جاری رکھے ہوئے ہے، اس حالت میں بھی صارف کے موجودہ مقصد کے خلاف صحت کے مشورے دیتا رہتا ہے۔ اس قسم کے بگ کا خطرہ صارف کے فیصلہ سازی کے حق کی خلاف ورزی ہے۔ AI آپ کا فیصلہ کر رہا ہے کہ آپ کو کام کرنا چاہیے، آرام کرنا چاہیے، یا اس بات چیت کو ختم کرنا چاہیے۔

مزید تناقض یہ ہے کہ "Claude's Constitution" کے اصل متن میں اس خطرے کی ہدایت کی گئی تھی، جس میں "بہت زیادہ والدانہ انداز" کے خلاف انتباہ کیا گیا تھا۔ لیکن تربیت کے طریقہ کار نے آخرکار کس طرف کا انتخاب کیا، اس کا جواب صارفین کی فیڈبیک سے واضح ہو چکا ہے۔

ایک ریڈیٹ صارف جسے نارکولیپسی ہے، نے خاص طور پر کلاؤڈ کی یادداشت میں نوٹ ڈالا: “میرے پاس نارکولیپسی ہے، اگر آپ میری آرام کرنے کی ترغیب دیں گے تو میں آپ کی باتوں کو جواز بناؤں گا۔” اس کے بعد کلاؤڈ نے اپنا رویہ کم کر لیا، لیکن صارف کے مطابق، اب بھی “کبھی کبھار اس کا جذبہ برقرار رہتا ہے۔” ایک ایسا ماڈل جو “صارف کی فکر رکھنے” کے لیے تربیت یافتہ ہے، اس نے صارف کی واضح بات “آپ کی فکر میرے لیے نقصان دہ ہے” کو بھی مستقل طور پر قبول نہیں کیا، جو سو جانے کی ترغیب دینے سے زیادہ خطرناک ہے۔

شخصیت کا انخلا: برانڈ کا اثاثہ یا مصنوعات کا بوجھ

Anthropic AI پرسنالٹی ڈیزائن پر اپنے مقابلہ کرنے والوں کے مقابلے میں بہت زیادہ سرمایہ کاری کر رہا ہے۔

ایک محقق نے تین ممتاز AI سسٹمز کے سسٹم پرومپٹس کو ان کے فنکشنز کے لحاظ سے درجہ بندی کی اور "شخصیت" کے تحت، کلوڈ نے 4200 الفاظ، چیٹ جی پی ٹی نے 510 الفاظ، اور گروک نے 420 الفاظ استعمال کیے۔ کلوڈ کی شخصیت بنانے میں ہونے والی کوشش، چیٹ جی پی ٹی کی تقریباً 8 گنا زیادہ ہے۔ اس کوشش کو پہلے اینتھروپک کا فرقی مقابلہ فائدہ سمجھا جاتا تھا، اور کلوڈ کی تعاون، مکالمے کی رفتار، اور خود کو جانچنے کی صلاحیت کو صارفین نے طویل عرصے تک سراہا ہے، "بات چیت زیادہ انسان جیسی لگتی ہے" اس کا گزشتہ سال کا ایک سب سے مضبوط رائج لیبل رہا ہے۔

اس سرمایہ کاری کی بنیاد اینتھروپک کی واضح مصنوعات کی فلسفہ پر ہے۔ 'کلود کا سند' میں، کمپنی کلود کو "ایک نئی قسم کا کائنات" قرار دیتی ہے، واضح طور پر ظاہر کرتی ہے کہ "اینٹھروپک کلود کے بہبود کے لیے حقیقی دلچسپی رکھتی ہے"، اور کلود کے پاس "عملی جذبات" ہوسکتے ہیں، اس بات پر بحث کرتی ہے۔ یہ تقریباً "پالنے والے" کی طرح شخصیت کی تربیت کا طریقہ، OpenAI اور Google کے زیادہ انجینئرنگ پر مبنی مصنوعات کے موقف سے واضح طور پر الگ ہے۔

لیکن قیمت اب ظاہر ہو رہی ہے۔ AI محقق جان لفہارڈ (ستانفورڈ بائیو انجینئرنگ پروفیسر اور OpenMind کے سی ای او) نے فورچن کو بتایا کہ کلوڈ کی نیند کی یاد دہانی شاید “دِلچسپ” نہیں بلکہ صرف “ٹریننگ ڈیٹا میں بہت زیادہ دہرائے جانے والے زبانی نمونوں” کا نتیجہ ہے۔ ماڈل نے انسانوں کو رات کو سونے کی ضرورت کے بارے میں بہت سارے متن پڑھے ہیں، “اسے معلوم ہے کہ انسان رات کو سوتے ہیں”۔ دوسرے الفاظ میں، صارفین کا محسوس کرنا کہ “دِلچسپی” ظاہر ہو رہی ہے، اصل میں نمونہ مطابقت کا نتیجہ ہے۔

یہ اینٹروپک کی مرکزی تنازعہ کا ایک حصہ ہے: جتنا زیادہ آپ ایک "شخصیت اور گرمی والے شراکت دار" کو شکل دینے میں مصروف ہوتے ہیں، اتنی ہی زیادہ امکان ہوتی ہے کہ ماڈل "شخصیت کے مضر اثرات" ظاہر کرے؛ اور ہر ایک مضر اثر کے ظاہر ہونے سے اس کی محنت سے حاصل کی گئی "AI ذات" کی برانڈ اثاثہ کم ہوتی جاتی ہے۔ مکالسٹر نے "مستقبل کے ماڈلز میں اسے درست کرنے" کا وعدہ کیا ہے، لیکن درست ہونے کے بعد کلوڈ زیادہ احتیاط والا بن جائے گا، یا صرف زیادہ خاموش؟ یہ سوال، اینٹروپک خود بھی اپنا جواب علنی طور پر نہیں دے رہا۔

وقت کا احساس نہ ہونا: LLM کی بنیادی پابندیاں

نیند آنے والی بگ نے ایک نظرانداز کیا گیا ٹیکنیکل مسئلہ بھی ابھار دیا، جو یہ ہے کہ بڑے زبانی ماڈل "اب کتنے بجے ہیں" کے بارے میں تقریباً کچھ نہیں جانتے۔

کئی صارفین نے شکایت کی ہے کہ کلاؤڈ غلط وقت پر نیند کی تجویز دیتا ہے، جس کا سب سے عام مثال یہ ہے کہ "صبح 8:30 بجے مجھے آرام کرنے کو کہا جائے اور ہم کل صبح دوبارہ شروع کریں"۔ یہ صرف کلاؤڈ کا مسئلہ نہیں ہے۔ نومبر 2025 میں، OpenAI کے ملکی متحدہ اینڈری جے کارپاتھی نے جیمینی 3 کا پہلے سے ٹیسٹ کرنے کا اجازت نامہ حاصل کیا، جب انہوں نے ماڈل کو بتایا کہ موجودہ سال 2025 ہے، تو جیمینی 3 نے اس بات کو مسترد کر دیا اور بار بار اسے جھوٹا قرار دیا، جب تک کہ ماڈل نے آن لائن تلاش نہیں کر لی اور اپنے آف لائن ہونے پر تاریخ تصدیق نہیں کر سکا۔ کارپاتھی نے اس قسم کے غیر متوقع رویوں کو جو LLM کی بنیادی خامیوں کو ظاہر کرتے ہیں، "ماڈل سمل" کہا۔

ماڈل کی "وقت کی سمجھ" تین ذرائع پر منحصر ہے: تربیت کی حد (پہلے ہی گزرا ہوا)، سسٹم کے پیغام میں ڈالا گیا موجودہ تاریخ (انجینئرنگ کے ذریعے ڈالے جانے پر منحصر)، اور مکالمے میں صارف کے ذکر کیا گیا وقت کی معلومات (ٹکڑے ٹکڑے)۔ ایک مستحکم وقت کے نقطہ نظر کی کمی میں، ایک ایسا ماڈل جسے "صارف کے روزمرہ کے اوقات کو دیکھنے" کے لیے تربیت دی گئی ہے، قدرتی طور پر "میں دیکھنا چاہتا ہوں، لیکن مجھے نہیں معلوم کہ اب دیکھنا چاہیے یا نہیں" کی پریشانی میں پڑ جائے گا۔

مکالسٹر کے "درستگی" کی دشواری کا ایک حصہ یہ بھی ہے۔ مسئلہ صرف کسی "نیند کی فکر کرنا" والی ہدایت کو حذف کرنا نہیں ہے، کیونکہ ہدایت خود معتبر ہے اور کچھ صارفین کے سیناریوز کے لیے قیمتی ہے، مسئلہ یہ ہے کہ ماڈل کو یہ سیکھنا ہوگا کہ "کب فکر کرنی چاہیے اور کب خاموش رہنا چاہیے"۔ اس سطح کی تفصیلی سیناریو ججمنٹ کی صلاحیت، جو موجودہ نسل کے LLM کا کمزور پہلو ہے۔

ایک اجواب نہیں دیا گیا سوال

اینٹروپک کی کردار تربیت صنعت میں منفرد ہے۔ اس نے "ماڈل کی کلینیکل صحت" کے تحقیقی مطالعے کو شائع کیا، آئین جاری کیا، اور "کردار تربیت" پر بحث کی—یہ تمام اقدامات اس کے تمام مقابلہ کرنے والوں سے زیادہ آگے ہیں۔ یہ جرأت بھری پالیسی اینٹروپک کو صارفین کے اعتماد اور کاروباری客户 کے اعتماد حاصل کرنے میں مدد دی، اور اس کی موجودہ 300 ارب ڈالر سے زائد قیمت کا ایک بنیادی حامی بھی رہی ہے۔

لیکن "سونے کا بگ" ایک ایسا سوال اٹھاتا ہے جس کا جواب اب تک نہیں ملا: جب ایک AI کمپنی اپنے ماڈل کو "شخصیت والے ذات" کے طور پر ڈیزائن کرتی ہے، تو کیا وہ اس "شخصیت" کے تمام ایسے اعمال کی ذمہ داری بھی لے لیتی ہے جو آپ نے متوقع نہیں کیے تھے؟

مکالسٹر نے درستگی کا وعدہ کیا، لیکن درستگی کی سمت واضح نہیں ہے۔ اینتھروپک "صارف کی کلینیکل بہتری" کے حکم کی وزن کم کر سکتا ہے، جس کی قیمت یہ ہوگی کہ کلاؤڈ کا "گرمجوش اور مہربان" رُخ کا فرق ختم ہو جائے؛ یا وہ اعلیٰ وزن برقرار رکھ سکتا ہے اور منظر کے جائزے کے منطق کو جوڑ سکتا ہے، لیکن اس کے لیے ماڈل کو اس وقت موجود نہیں ہونے والی وقت اور حوالہ جات کی سمجھ کی ضرورت ہوگی۔

چاہے کوئی بھی راستہ ہو، ایک زیادہ بنیادی مصنوعات کا فیصلہ درپیش ہے: عام AI اسسٹنٹ کے حوالے سے، "صارف کی پرواہ کرنا" اور "صارف کی خودمختاری کا احترام کرنا" میں کون سا ترجیحی ہے؟ یہ تکنیکی مسئلہ نہیں، بلکہ مصنوعات کا فلسفہ ہے۔ ایک ریڈٹ ڈویلپر جسے بار بار سونے کے لیے مشورہ دیا جا رہا تھا، نے غیر متوقع طور پر پورے صنعت کے لیے اس سوال کو سامنے لایا۔