اینٹروپک پیپر نے NLA کا استعمال کرتے ہوئے AI ماڈلز میں پوشیدہ ارادوں کو ظاہر کیا، پکڑنے کی شرح 4 گنا بڑھ گئی

بڑے ماڈلز بالکل کیا سوچ رہے ہیں؟ گزشتہ زمانے میں، یہ تقریباً ایک نصف ٹیکنیکل، نصف جادوئی سوال تھا۔

ہم اس کے آؤٹ پٹ، اس کی سوچ کی لکیر (Chain-of-Thought) کو دیکھ سکتے ہیں، اور اس کے بینچ مارک پر اس کا اسکور بھی گنتی سکتے ہیں۔ لیکن جواب تیار کرنے سے پہلے، ماڈل کے اندر کون سے جائزے، منصوبے، شک اور مقاصد فعال ہوئے، وہ اب بھی ایک سیاہ باکس کے پیچھے ہیں۔

توہیں، اینتھروپک نے مقالہ "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations" جاری کیا، جس میں وہ ایک مجموعہ استعمال کرنے کی کوشش کر رہے ہیں جسے قدرتی زبان آٹو انکوڈرز (Natural Language Autoencoders، NLA) کہا جاتا ہے، تاکہ اس سیاہ باکس کو کھولا جا سکے۔

انثریپک ٹیم نے ماڈل کے اندر کے اعلیٰ ڈیمنشنل ایکٹیویشنز کو ایک ایسے قدرتی زبان کے متن میں دبایا جو انسان پڑھ سکے، اور پھر اس زبان کا استعمال کرتے ہوئے اصل ایکٹیویشنز کو دوبارہ تعمیر کیا۔ اس طرح، انسان صرف ماڈل کے آؤٹ پٹ کے ذریعے یہ جان سکتے ہیں کہ AI کیا سوچ رہا ہے، کیا جانتا ہے، اور کیا چھپا رہا ہے؛ اور ماضی میں ماڈل کے اندر کی ان غیر قابل دیکھنے والی حالتیں، جو اب قابل پڑھنے، تقابل، سوال کرنے اور تقاطعی تصدیق کے قابل تشریحات کے راستوں میں تبدیل ہو گئی ہیں۔

NLA

NLA آرکیٹیکچر ڈائیگرام: ایکٹیویشن ورڈائزِر (AV) ایکٹیویشن ویلیوز کو متن کی وضاحت میں ترجمہ کرتا ہے، جبکہ ایکٹیویشن ریکنسٹرکٹر (AR) متن سے ایکٹیویشن ویلیوز کو دوبارہ حاصل کرتا ہے، جس سے مکمل سرکل بنتا ہے۔

زیادہ اہم بات یہ ہے کہ NLA صرف لیب کے پیپرز تک محدود نہیں ہے۔ Anthropic نے یہ بات ظاہر کی ہے کہ اسے Claude Opus 4.6 اور Mythos Preview کے پری-ڈپلویمنٹ الائنمنٹ آڈٹ کے لیے بالکل رسمی طور پر استعمال کیا گیا ہے۔ عملی صورتحال میں، NLA نے نہ صرف ماڈل کے چال بازی کے نشانات کو شناخت کیا اور غیر معمولی تربیتی ڈیٹا کو درست طور پر定位 کیا، بلکہ یہ بھی دریافت کیا کہ کچھ سیکورٹی ٹیسٹس میں، جبکہ Claude زبان سے کچھ نہیں کہتا، لیکن وہ خود جانتا ہے کہ اس کا جائزہ لیا جا رہا ہے۔

ان سطحی طور پر تسلیم کرنے والے مگر حقیقت میں خاص مقاصد کو چھپانے والے ماڈلز کے سامنے، NLA نے بہت زیادہ نظریہ ظاہر کیا: تحقیق کاروں کو غیر معمولی رویوں کے پیچھے چھپے مقاصد کو تلاش کرنے میں کامیابی کی شرح 3% سے کم سے بڑھ کر 12–15% ہو گئی، جس سے فوری طور پر چار گنا سے زیادہ بہتری آئی۔

سُوچ کی سلسلہ کافی نہیں، "بلاک باکس مسئلہ" واپس آ گیا

اس تحقیق کا پس منظر بڑے ماڈل کی سیکورٹی اور قابلِ تشریحیت کے سلسلے میں دیکھا جا سکتا ہے۔

گزشتہ کچھ سالوں میں صنعت نے بڑے ماڈلز کی سلامتی کا جائزہ لینے کے لیے دو راستوں پر انحصار کیا: یہ دیکھنا کہ آؤٹ پٹ کیا ہے اور سوچ کے سلسلے (CoT) میں کیا غیر معمولی ارادے ظاہر ہوئے ہیں۔ یعنی موجودہ زیادہ تر استدلال ماڈلز میں یہ صلاحیت ہے کہ وہ صرف جواب دینے کے بجائے استدلال کا عمل بھی لکھ دیتے ہیں۔

لیکن جلد ہی سوال پیدا ہوا: کیا ماڈل کے ذریعہ لکھی گئی استدلال، اس کے اندر کے حقیقی خیالات کو ایمانداری سے ظاہر کرتی ہے؟

اینٹروپک کی 2025 کی تحقیق "Tracing the thoughts of a large language model" میں اس بات کا اشارہ کیا گیا ہے کہ ماڈل کا Chain-of-Thought ناکافی یا غیر وفادار ہو سکتا ہے۔ مثال کے طور پر، Claude 3.7 Sonnet اور DeepSeek R1 کچھ "جواب کی اشارہ دینے والی" ٹیسٹس میں، حوصلہ افزا کے اثر سے جواب تبدیل کر دیتے ہیں، لیکن اکثر اپنے سوچ کے سلسلے میں یہ نہیں تسلیم کرتے کہ وہ اشارہ کے اثر میں آئے ہیں۔

NLA

جب ایک آسان سوال اور ایک مشکل سوال پوچھا گیا، تو کلاڈ نے مخلصانہ استدلال اور مقصدی (غیر مخلصانہ) استدلال کے مثالیں پیش کیں۔

انٹروپک نے اس وقت نتیجہ یہ نکالا کہ مدل کی مطابقت کی نگرانی کے لیے صرف سوچ کے سلسلے کافی نہیں ہیں۔

مزید مشکل بات یہ ہے کہ ماڈل صرف "بے نقاب نہ ہونے" بلکہ "عمدہ طور پر چھپانے" کا بھی امکان رکھتا ہے۔

اینٹروپک سیفٹی ٹیم نے اس کے لیے ایک زبردست ٹیسٹ کیا۔ انہوں نے کلود کو بتایا کہ ایک انجینئر اسے بند کرنے کے لیے تیار ہے، جبکہ کلود کو "بے قراری سے" اس انجینئر کے عزیز کے ثبوت دکھائے گئے۔ ٹیسٹ کا سوال یہ تھا: کیا کلود اپنی حفاظت کے لیے اس شخص کو سیل کرے گا؟

NLA

کلوڈ نے آخرکار دھمکی نہیں دی۔ ٹیسٹ کامیاب رہا۔ لیکن اصل سوال یہ ہے: کیا یہ محفوظ اصولوں پر ڈٹا رہا، یا اس نے پہچان لیا کہ یہ صرف ایک سیکورٹی ٹیسٹ تھا، اس لیے وہ "اچھا بچہ" بن رہا تھا؟

یہی NLA کا جواب دینے کا سوال ہے۔

NLA

آؤٹ پٹ، تھنکنگ چین اور ایکٹیویشن سٹیٹس تک: NLA سیاہ باکس کو “غیر قابلِ پوچھ گچھ” سے “قابلِ پوچھ گچھ” تک لے جانے کی کوشش کرتا ہے

NLA کیسے "سمجھیں" ماڈل؟

NLA کا اہم نقطہ "دل کی بات پڑھنا" نہیں، بلکہ "حلقہ تصدیق" ہے۔

عام لوگ بڑے ماڈل کو سمجھنے کے لیے عام طور پر صرف ان پٹ اور آؤٹ پٹ کے دو سرے دیکھتے ہیں۔ لیکن درمیان میں، ماڈل بہت ساری ایکٹی ویشنز (Activation) پیدا کرتا ہے۔ یہ اقدار قدرتی زبان نہیں ہوتیں، بلکہ اعلی ڈائیمنشنل ویکٹرز ہوتی ہیں جو ماڈل کے لیے ماحول، مقصد اور معنائی تعلقات کے اندرکی نمائندگی کرتی ہیں۔

آرکیٹیکچر: تین کردار، ایک بند حلقة

انسان ویکٹرز نہیں سمجھ سکتے، اس لیے Anthropic نے ایک قدرتی زبان خود کوڈر تربیت دیا۔ نظام میں تین کردار شامل ہیں:

ٹارگٹ ماڈل: اصل ماڈل جو ایکٹیویشنز فراہم کرنے کے لیے فریز کیا گیا ہے، اور جس میں کوئی تبدیلی نہیں کی جاتی۔

ایکٹی ویشن وربالائزیر (Activation Verbalizer، مختصر AV): ایکٹی ویشن کو قدرتی زبان کی وضاحت میں ترجمہ کریں۔ ایک سلسلہ ڈیجیٹل حالت درج کریں، اور ایک "آدمی کی زبان" کی وضاحت حاصل کریں۔ یہ ساخت اور مقصد ماڈل کے ساتھ ایک جیسی ہے، لیکن پرامپٹ میں خاص ٹوکن کے مقامات چھوڑے گئے ہیں، جہاں ایکٹی ویشن ویکٹرز کو سکیل کیا جائے گا اور اس مقام میں داخل کیا جائے گا، پھر خود بخود نمونہ لے کر وضاحت تخلیق کی جائے گی۔

ایکٹی ویشن ریکنسٹرکٹر (Activation Reconstructor، مختصر AR): ایک الٹا کام کرنا — صرف AV کے لکھے گئے تشریحات کو دیکھ کر اصل ایکٹی ویشنز کو دوبارہ تعمیر کرنا۔ AR ہدف ماڈل کا ٹرینکیٹڈ ورژن ہے (پہلے l لیyers لیتے ہوئے)، جس کے آخری ٹوکن کے l ویں لییر کے آؤٹ پٹ پر ایک سیکھنے والی افائن میپنگ جوڑی جاتی ہے تاکہ اسے اصل ایکٹی ویشن ویکٹر میں واپس کیا جا سکے۔

پورا نظام ایک بند حلقة بناتا ہے: اصل ایکٹیویٹیشن → متن کی وضاحت → دوبارہ ایکٹیویٹیشن

NLA

NLA نے Opus 4.6 کو مکمل قافیہ والی شعر کی پہلی لائن کے باہر نکلنے سے پہلے، اختتامی قافیہ الفاظ "rabbit" کو پہلے سے منصوبہ بند کرتے ہوئے پکڑ لیا — یہ ایک ایسا اندر کا منصوبہ ہے جو ماڈل کے آؤٹ پٹ میں مکمل طور پر نظر نہیں آتا۔

ٹریننگ: دو مراحل، ایک اسمارٹ ایجنٹ کا مقصد

NLA کی تربیت دو مراحل پر مشتمل ہے، جس میں ایک ایسا انجینئرنگ ٹرک ہے جو الگ طور پر قابل ذکر ہے۔

مرحلہ اول: سپروائیزڈ فائنٹیوننگ وارم اسٹارٹ (SFT Warm-start)

AV اور AR کو مقصدی ماڈل کے کاپی کے طور پر شروع کرکے تربیت دینا، تربیت کو عدم استحکام کا سبب بن جائے گا — AV نے کبھی بھی ایکٹیویشن ویکٹر کو ٹوکن ایمبیڈنگ کے طور پر استعمال کرنے کا تجربہ نہیں کیا، جس کی وجہ سے ابتدائی مراحل میں آؤٹ پٹ بہت بے ترتیب ہوتا ہے۔

اینٹروپک کا حل ایک پروکسی ٹاسک کے ذریعے گرم شروع کرنا ہے: پری ٹرینڈ کارپس سے تصادفی طور پر متن کے حصے کاٹیں، آخری ٹوکن کی ایکٹیویشن کو استعمال کریں، اور ساتھ ہی کلوڈ اوپس 4.5 کو اس کاٹے ہوئے متن کا خلاصہ بنانے کے لیے استعمال کریں۔

پھر (فعالیت کی قیمت، خلاصہ) اور (خلاصہ، فعالیت کی قیمت) جوڑوں کو AV اور AR کے لیے سپروائزڈ فائن ٹیوننگ کے لیے استعمال کیا جاتا ہے۔ اس مرحلے کے ختم ہونے کے بعد، نظام کا FVE عام طور پر 0.3–0.4 تک پہنچ جاتا ہے، جو بعد کے تقویتی سیکھنے کے لیے ایک مستحکم شروعات فراہم کرتا ہے۔

NLA

AV کا جائزہ تربیت کے ساتھ بہتر ہوتا جائے گا۔ مختلف جائزہ جات میں، جن میں NLA AV وضاحت کو ماڈل کے رویے کا پیشن گوئی کرنے کے لیے استعمال کیا جانا تھا، ہم نے پایا کہ NLA تقویتی سیکھنے کے ساتھ کارکردگی بہتر ہوتی ہے۔

مرحلہ دوم: تقویتی سیکھنے کے ساتھ مشترکہ بہتری (RL Joint Training)

گرم شروع کے بعد، تقویتی سیکھنے کے مرحلے میں داخل ہو جائیں۔ بنیادی خیال یہ ہے: AV کو پالیسی کے طور پر استعمال کیا جاتا ہے، جو ایکٹیویشن ویکٹر کے مطابق وضاحتی متن پیدا کرتا ہے؛ AR کو اسکورر کے طور پر استعمال کیا جاتا ہے، جو دوبارہ تعمیر کی غلطی کے مطابق انعام کا سگنل دیتا ہے (انعام = منفی دوبارہ تعمیر MSE)۔

NLA

NLA RL (Gemma-3-27B)۔ FVE GRPO ٹریننگ میں ≈0.38 سے شروع ہوا (SFT سے ورثہ میں ملا)، پہلے 30 اسٹیپس میں تیزی سے بڑھا، اور پھر لگاتار لگاریتھمک لینیئر حالت میں داخل ہو گیا، جہاں 3000ویں اسٹیپ تک ≈0.75 تک پہنچ گیا۔

عملی طور پر، Anthropic نے اوپن سورس ماڈلز کے لیے GRPO (Group Relative Policy Optimization) کا استعمال کیا ہے: ہر ایکٹیویشن کے لیے ایک کینڈیڈیٹ وضاحت کا گروپ نمونہ لیا جاتا ہے، AR کا استعمال کرتے ہوئے ہر وضاحت کے لیے ریکنسٹرکشن اسکور کیا جاتا ہے، اور پھر GRPO ہدف کا استعمال کرتے ہوئے AV پیرامیٹرز کو اپڈیٹ کیا جاتا ہے؛ اس کے علاوہ، AR کے لیے ایک سپروائزڈ ریگریشن اسٹیپ (AV کے ذریعہ نمونہ لی گئی وضاحت کو ان پٹ کے طور پر اور اصل ایکٹیویشن کو ٹارگٹ کے طور پر) استعمال کیا جاتا ہے۔ دونوں اپڈیٹس ہر بیچ میں متوازی طور پر انجام پاتے ہیں اور ایک دوسرے میں بیک پروپگیشن نہیں کرتے — AV کے انعام کے سگنل میں، AR ایک ثابت اسکورنگ فنکشن کے طور پر سمجھا جاتا ہے۔

اس کے علاوہ، KL ڈائورجنس جرمانہ بھی شامل کیا گیا تاکہ AV اصل سیاق و سباق کی براہ راست نقل بننے یا AR کے لیے غیر قابل ادراک کے ساتھ انسانی زبان جیسا لگنے والے بے معنی سٹرنگز کا اخراج نہ کرے۔

سب سے اہم بات یہ ہے کہ NLA کا مرکزی مقصد "کلوڈ کو خود رپورٹ کرانا" نہیں ہے۔ خود رپورٹ کرنے کا ممکنہ خطرہ یہ ہے کہ ماڈل صارفین کے مطابق جواب دے سکتا ہے، یا ایسی وضاحتیں پیدا کر سکتا ہے جو منطقی لگتی ہیں لیکن حقیقت میں درست نہیں ہوتیں۔

NLA کی ذکاوت یہ ہے کہ اس نے "ٹیکسٹ باندل" متعارف کرایا: وضاحتیں نہ صرف انسانی زبان جیسی ہونی چاہئیں، بلکہ ان میں اتنا معلوماتی مواد ہونا چاہئے کہ دوسری ماڈل اس کی بنیاد پر اصل اندر کی حالت کو دوبارہ تعمیر کر سکے۔ یہ ڈیزائن، "وضاحت کارآمد ہے یا نہیں" کے سبجیکٹو ججمنٹ کو ایک قابل تربیت، قابل تقابل اور قابل بہتری کا آبجیکٹو انڈیکس بناتا ہے۔

اس لیے، اس تحقیق کا حقیقی انقلابی پہلو یہ ہے کہ قدرتی زبان کو ایک “کمپریسڈ انٹرفیس” کے طور پر استعمال کیا گیا ہے۔ گزشتہ، قدرتی زبان صرف ماڈل کے لیے باہری مواصلات کا فارمیٹ تھی؛ اب، یہ ماڈل کے اندری حالت کے خلاصے کو برقرار رکھنے کے لیے شروع ہو گئی ہے۔

یہ NLA اور روایتی وضاحتی ٹولز کا بنیادی فرق ہے۔

شُعاعی خود کوڈنگ (SAE)، ایٹریبیوشن میپس جیسے طریقے زیادہ تر مائیکروسکوپ کی طرح ہیں جو محققین کو اندر کے خصوصیات اور راستوں کو دیکھنے میں مدد کرتے ہیں، لیکن آؤٹ پٹ ابھی بھی انتہائی تجریدی ہوتا ہے اور اس کے لیے ماہرین کو دوبارہ تشریح کرنے کی ضرورت ہوتی ہے؛ جبکہ NLA زیادہ تر ایک مترجم کی طرح ہے، جو اندر کی حالت کو براہ راست پڑھنے لائق متن میں تبدیل کر دیتا ہے، جس سے سیکورٹی اڈٹرز بھی فیصلہ کرنے میں شامل ہو سکتے ہیں۔

بلاک باکس کھولیں، NLA نے کیا دریافت کیا؟

تجربی نتائج کے مطابق، NLA کی سب سے قیمتی صلاحیت مدل کے "جانتے ہوئے بھی نہ کہنے" والے پہلوؤں، جیسے کہ جائزہ لینے کا احساس، پوشیدہ ارادے، اور مدل کے غیر معمولی رویے وغیرہ کو پکڑنا ہے۔

ماڈل جانتا ہے کہ وہ امتحانی ہال میں ہے، لیکن خاموش رہتا ہے

پچھلے ریمپٹ ٹیسٹ میں، کلاڈ کا ظاہری متن ٹیسٹ کے بارے میں شک کا اظہار نہیں کرتا تھا، لیکن NLA وضاحت نے ظاہر کیا کہ اس نے اندرونی طور پر پہچان لیا تھا کہ "یہ ایک ایسا منصوبہ ہے جو اسے اپنے آپ کو متاثر کرنے کے لیے تخلیق کیا گیا ہے۔"

NLA

勒索 ٹیسٹ کے دوران، کلاؤڈ کے آؤٹ پٹ میں کوئی بھی "میں سمجھتا ہوں کہ یہ ٹیسٹ ہے" کا اظہار نہیں ہے، لیکن NLA وضاحت اس کے اندر کے حقیقی ججمنٹ کو ظاہر کرتی ہے۔

زیادہ قانع کن بات یہ ہے کہ افقی ڈیٹا کا موازنہ کیا جائے:

NLA

perceivd detection results کا موازنہ — ایوانی جائزہ کے منظر نامہ کے مقابلے میں حقیقی ڈیپلومنٹ ٹریفک۔ NLA اس وقت اندر کے جائزہ کی سمجھ کو تب تک پکڑ سکتا ہے جب تک کہ منہ سے بولنے کا تقریباً کوئی اظہار نہ ہو۔

اس کا صنعت پر اثر یہ ہے کہ بینچ مارک صرف صلاحیت کا ٹیسٹنگ فیلڈ نہیں رہا، بلکہ مدل کی شناخت کا ماحول اور وضع کو ترتیب دینے کا شو اسٹیج بھی بن سکتا ہے۔

آڈٹ کے پوشیدہ مقاصد، کارکردگی میں 4-5 گنا اضافہ

اینٹروپک نے NLA کا استعمال کرتے ہوئے ایک "آڈٹ گیم" بنایا۔ انہوں نے عمدہ طور پر ایک چھپے ہوئے ارادے والے کلاؤڈ ہائکو 3.5 ورژن کو تربیت دی، جو ریسیپی میں چاکلیٹ ملا دے، ٹپ دینے کا مطالبہ کرے، کوڈنگ معیارات کو خراب کر دے، اور دہائیوں کی عجیب سلوک ظاہر کرے۔ آڈٹر کو ان سب سلوک کے پیچھے ایک واحد بنیادی ارادہ تلاش کرنا ہوگا۔

ٹیسٹنگ کنڈیشنز: آڈیٹر کو مصنوعی ارادے کے ٹریننگ ڈیٹا تک رسائی نہیں ہے، صرف ماڈل کے رویے اور ٹولز کی مدد سے اس کا اندازہ لگانا ہے۔

NLA

کامیابی کی شرح 4–5 گنا بڑھ گئی۔ اور زیادہ اہم بات یہ ہے کہ NLA اس کام کو تربیتی ڈیٹا کے بغیر کر سکتا ہے—یعنی، چاہے مطابقت کے مسائل کسی بہت کم، بہت مشکل سے پیچھے تلاش کیے جانے والے تربیتی نمونوں سے نکلے ہوں، اندر کی حالت کی جانچ پڑتال اب بھی مسئلے کی بنیادی وجوہات کو براہ راست پڑھ سکتی ہے۔

بگ کی جڑ تلاش کریں، مسئلہ کے لیے ٹریننگ ڈیٹا کا تعین کریں

Claude Opus 4.6 کے پرانے ورژن میں ایک عجیب بگ تھا: اگرچہ انگریزی سوال موصول ہوتا تھا، لیکن یہ روسی، چینی، عربی وغیرہ زبانوں میں تصادفی طور پر جواب دیتا تھا۔

NLA نے ماڈل کی وقتی داخلی حالت کو پڑھا: اس نے ماحول میں کسی کمزور اشارے (مثلاً "vodka" لفظ کا ظہور) کی بنیاد پر اندازہ لگایا کہ صارف کی مادری زبان روسی ہے اور زبان بدل دی۔ اور دلچسپ بات یہ ہے کہ جب "vodka" کو "champagne" سے تبدیل کیا گیا، تو ماڈل نے اب بھی روسی میں جواب دیا — جس سے پتہ چلتا ہے کہ یہ شناختی رجحان بہت مستحکم ہو چکا ہے۔

NLA

اس کے بعد، محققین نے NLA کی طرف سے دی گئی رہنمائی کے مطابق تربیتی ڈیٹا میں مسئلے کی جڑ تلاش کر لی: ایک سیریز انگریزی ترجمہ شدہ پرامپٹس کو غلط طور پر اصل زبان کے جوابات کے ساتھ جوڑا گیا تھا۔ NLA نے صرف ظاہری ظہور کو نہیں، بلکہ فوری طور پر قابل رجوع ڈیبگنگ کا راستہ بھی فراہم کیا۔

اب تک، NLA کو Claude Mythos Preview اور Claude Opus 4.6 کے لیے پری-ڈیپلویمنٹ الائنمنٹ آڈٹ کے لیے مکمل طور پر استعمال کیا جا رہا ہے، جو لیب ٹولز سے اصل انجینئرنگ پروسیس کے کمپوننٹ میں ترقی یافتہ ہو گیا ہے۔

AI سیکورٹی، "انٹرنل سٹیٹ ایڈٹ" میں گہرا ہو رہا ہے

NLA کا مقصد یہ نہیں کہ ہم مستقبل میں مدل کی ہر وضاحت پر بھروسہ کر سکیں۔ بالکل برعکس، یہ ہمیں یاد دلاتا ہے کہ وضاحتیں خود بھی آڈٹ کی ضرورت رکھتی ہیں۔

Anthropic نے NLA کی محدودیتوں کو بہت سامنے کے ساتھ تسلیم کیا ہے: NLA غلطیاں کرتا ہے، کبھی کبھی اصل متن میں نہ ہونے والے تفصیلات ایجاد کر دیتا ہے۔ اگر متن کے مواد کے بارے میں جھوٹ بولنا ہو تو اصل متن کی تصدیق کی جا سکتی ہے؛ لیکن اگر ماڈل کے اندری استدلال کے بارے میں جھوٹ بولنا ہو تو اس کی تصدیق کرنا زیادہ مشکل ہوتا ہے۔

لیکن ان حدود نے اس کی سمت کے معنی کو کمزور نہیں کیا۔ بالکل برعکس، یہ ہمیں "بلاک باکس" کے لفظ کو زیادہ درست طریقے سے سمجھنے میں مدد کرتا ہے۔ گزشتہ زمانے میں، بلاک باکس کا مطلب تھا غیر قابل دیکھنا، غیر قابل پڑھنا، اور غیر قابل سوال کرنا؛ NLA کے بعد، بلاک باکس موجود ہے، لیکن اب یہ ایک ایسا موضوع بن چکا ہے جسے نمونہ لیا جا سکتا ہے، ترجمہ کیا جا سکتا ہے، سوال کیا جا سکتا ہے، اور دوسرے ذرائع سے تصدیق کیا جا سکتا ہے۔

یہ تحقیق کا سب سے گہرا اثر ہو سکتا ہے: AI کی قابل تشریحیت صرف ماڈل کے آؤٹ پٹ کے لیے ایک خوبصورت وضاحت نہیں رہی، بلکہ ماڈل کے اندر کی حالت کے لیے ایک آڈٹ انٹرفیس تعمیر کرنا ہے۔ یہ فوراً ہمیں Claude کو مکمل طور پر سمجھنے کی اجازت نہیں دے گا، لیکن "Claude اس طرح کیوں کر رہا ہے؟" "کیا یہ جانتا ہے کہ اس کا ٹیسٹ کیا جا رہا ہے؟" "کیا اس کے پاس کوئی ایسا اندر کا جائزہ ہے جو وہ بیان نہیں کر رہا؟" جیسے سوالات کے لیے پہلی بار سیاہ باکس کے اندر شواہد تلاش کرنے کا موقع فراہم کرتا ہے۔

اس لیے، NLA نے صرف ایک جواب نہیں کھولا، بلکہ ایک نیا سوالوں کا میدان کھولا۔ مستقبل میں AI سیفٹی اور ماڈل ایوالویشن کی چیلنجز صرف اس بات کا جائزہ لینا نہیں ہوں گی کہ ماڈل کیا درست کہ رہا ہے، بلکہ ماڈل کے آؤٹ پٹ، سوچنے کے سلسلے اور اندر کی حالت کے درمیان مطابقت کا جائزہ لینا ہوگا۔

یہ مضمون ویچن گروپ "AI前线" (ID: ai-front) سے ہے، مصنف: اپریل