گوگل کی تحقیقی تقریر LLMs کو عدم یقین کو بہتر طریقے سے ظاہر کرنے کی درخواست کرتی ہے

گوگل ریسرچ چاہتی ہے کہ AI اکثر "میں نہیں جانتا" کہہے۔ کمپنی کے محققین کی ایک تحریر میں دلیل دی گئی ہے کہ بڑے زبانی ماڈلز کو اپنی اندر کی بھروسہ مندی کم ہونے پر جوابات کو مطمئن انداز میں پیش کرنے کے بجائے، اس طرح کے جوابات دینے چاہئیں جیسے کوئی ایسا کچھ بنانے والا نہ ہو۔

"کیا بڑے زبانی ماڈلز اپنی اندر کی عدم یقینیت کو الفاظ میں سچائی سے ظاہر کر سکتے ہیں؟" عنوان والے اس مقالے کو EMNLP 2024 میں پیش کیا گیا، جو قدرتی زبان کے معالجہ کے تحقیق کے لیے ایک اعلیٰ ادارہ ہے۔ اس کا مرکزی نتیجہ: موجودہ LLMs آپ کو یہ بتانے میں بہت خراب ہیں کہ وہ اپنے بارے میں بات کرتے وقت کچھ نہیں جانتے۔

جاننے اور کہنے کے درمیان فرق

مصنفین گل یونا، رئی اہرونی، اور مور جیوا ایک فارمل فریم ورک پیش کرتے ہیں جسے وہ "وفا کار ریسپانس ان سرٹینٹی" کہتے ہیں۔ انگلش میں: یہ ایک طریقہ ہے جو پیمانہ کرتا ہے کہ کیا ماڈل کی بولی گئی اعتماد کی سطح اس کی داخلی اعتماد کے ساتھ مطابقت رکھتی ہے۔ یہ میٹرک دونوں طرف کے عدم مطابقت کو سزا دیتا ہے، اس لیے جو ماڈل ہر چیز پر شک کرتا ہے، اسے اسی قدر سزا دی جاتی ہے جتنی اسے اس ماڈل کو دی جاتی ہے جو کبھی شک نہیں کرتا۔

ان کی تجویز جھوٹی طور پر سادہ ہے۔ جب کسی LLM کی اندر کی اعتماد کم ہو، تو اسے غیر یقینی معلومات کو حقیقت کے طور پر بیان کرنے کے بجائے قدرتی زبان کے ہیجس جیسے "میں نہیں جانتا، لیکن..." استعمال کرنا چاہیے۔

اعلان

محققین نے علمی طور پر زیادہ مطلوبہ سوالات کے جوابات دینے والے کئی مطابق LLMs کا امتحان لیا۔ نتائج متاثر کن نہیں تھے۔ جدید ماڈلز اپنے اخراجات میں اپنی عدم یقینی کو درست طریقے سے ظاہر کرنے میں کافی مشکل کا شکار ہیں۔

ہالوسینیشنز کیوں چیٹ بوٹس سے پرے اہم ہیں

گوگل کا پیپر انتظام کی بیانیہ کو ایک مطابقت کی مسئلہ کے طور پر پیش کرتا ہے۔ موجودہ مطابقت کے طریقہ کار، جو ابتدائی تربیت کے بعد ماڈلز کو فائن ٹیون کرنے کے لیے استعمال ہوتے ہیں، عام طور پر مددگاری اور روانی کے لیے بہتر بنانے پر مرکوز ہوتے ہیں۔ ایک ماڈل جو "میں نہیں جانتا" کہتا ہے، مددگاری کے معیارات پر کم اسکور کرتا ہے، حتیٰ کہ جب "میں نہیں جانتا" سب سے زیادہ درست ممکنہ جواب ہو۔

یہ ایک پریشان کن محرک پیدا کرتا ہے۔ مڈلز تطابق کے دوران سیکھتے ہیں کہ پختہ اور تفصیلی جوابات کو انعام دیا جاتا ہے، جبکہ محتاط یا ناقص جوابات کو سزا دی جاتی ہے۔ تحقیق کاروں کا استدلال ہے کہ اس فرق کے لیے نئے تطابق کے طریقے درکار ہیں جو ظاہری یقین کو حقیقی علم کے ساتھ مطابق کرنے کے لیے خصوصی طور پر ڈیزائن کیے گئے ہوں۔

ارکائیو پریپرینٹ کو 27 مئی، 2024 کو پہلی بار جاری کیا گیا، جس نے وسیع تحقیقی برادری کو EMNLP پریزنٹیشن سے پہلے ماہوں تک نتائج کے ساتھ ملوانے کا موقع دیا۔

کریپٹو اور AI چلائی گئی ٹریڈنگ کے لیے اس کا کیا مطلب ہے

کاغذ خود میں کرپٹو کرنسی، ڈیجیٹل اثاثے یا فنانشل ایپلیکیشنز کا کوئی حوالہ نہیں ہے۔ لیکن اس کے اثرات ایسے طریقے سے باہر پھیلتے ہیں جو AI ٹولز کا استعمال کرنے والوں کے لیے سرمایہ کاری کے تناظر میں اہم ہیں۔

ایک ٹریڈنگ سگنل جو کہہ رہا ہے کہ "بٹ کوائن $X پر مزید مزاحمت کا امتحان لے گا"، اس کے اہمیت کا اندازہ اس بات پر منحصر ہے کہ بنیادی ماڈل کی 95% یا 45% کی بھروسہ مندی ہے۔ ابھی، زیادہ تر AI ڈرائیون ٹولز دونوں صورتوں کو ایک جیسا پیش کرتے ہیں۔

ایسے سرمایہ کاروں اور ٹریڈرز کے لیے جو ابھی کرپٹو تجزیہ کے لیے AI ٹولز پر انحصار کر رہے ہیں، عملی نتیجہ سادہ ہے: کسی بھی AI سے پیدا شدہ خیال کو، جو اپنی عدم یقینیت کا اظہار نہ کرے، بہترین صورت میں ناقص سمجھیں۔ گوگل کا پیپر ثابت کرتا ہے کہ سب سے زیادہ جٹل ماڈلز بھی عام طور پر اپنی اعتماد کو زیادہ بیان کرتے ہیں۔