ستانفورڈ کا مطالعہ: AI قانونی استدلال اندھے ٹیسٹ میں قانون کے پروفیسرز سے بہتر کام کرتا ہے

CoinDesk کی رپورٹ:

ایک اسٹنفورڈ یونیورسٹی کی قیادت والی تحقیق کے مطابق، معاہدہ قانون کے استدلال کے ایک ٹاسک میں، قانون کے پروفیسرز نے زیادہ تر AI کے ذریعہ تخلیق کردہ جوابات کو اپنے ساتھیوں کے لکھے ہوئے ورژن کے بجائے منتخب کیا۔ تحقیقی ٹیم کا خیال ہے کہ یہ ظاہر کرتا ہے کہ بڑے زبانی ماڈلز کچھ پیشہ ورانہ مناظر میں قانونی شعبے کے عام جائزہ معیارات کے قریب پہنچ چکے ہیں۔

تقریبا تین ہزار اندھی تطبیقیں

مطالعہ کے لیے امریکہ کے 14 قانونی کالجوں کے 16 اساتذہ کو دعوت دی گئی، جن میں اسٹینفورڈ، ییل، نیو یارک یونیورسٹی، شکاگو یونیورسٹی، جارج ٹاؤن یونیورسٹی، UCLA اور ورجینیا یونیورسٹی سمیت شامل ہیں۔ 40 سوالات معاہدہ قانون کے اصولوں، مقدمات، فرضی صورتحالوں اور پالیسی کے تبادلوں کو کور کرتے ہیں۔

2918 بار کی اندھی تطبیق میں، جائزہ دینے والے پروفیسرز کو دو نامعلوم جوابات میں سے ایک منتخب کرنا تھا جسے وہ طلباء کے لیے زیادہ پسند کریں گے۔ نتائج نے ظاہر کیا کہ Google کا Gemini 2.5 Pro انسانی جوابات کے مقابلے میں 75.92% کی فتح حاصل کی، جبکہ NotebookLM کی فتح کی شرح 74.75% تھی۔

تمام قسم کے سوالات میں برتری حاصل ہے

مطالعہ کے مطابق، AI کئی قسم کے سوالات پر انسانی جوابات سے بہتر ہے، جن میں جج کے فیصلوں، قانونی دفعات اور قانونی اصولوں پر مبنی یادداشت کے سوالات، اور فرضی تجزیہ اور پالیسی کی بحث بھی شامل ہیں۔ تحقیق کاروں نے اس بات کا بھی جائزہ لیا کہ استادوں کے فیصلے صرف ذاتی ترجیحات ہیں یا نہیں، جس کے نتائج میں تصادفی سطح سے زیادہ ایک جانس کی درجہ بندی دکھائی دی۔

ایک صرف انداز کی ترتیب کی امکان کو مسترد کرنے کے لیے، ٹیم نے جواب کی لمبائی، ساخت، استدلال کی تفصیل، قانونی بنیادوں، لہجہ، واضحیت اور تعلیمی حمایت جیسے خصوصیات کا مزید تجزیہ کیا۔ تحقیق کے مطابق، یہ سطحی عوامل پروفیسر کی AI جوابات کے لیے ترجیح کو مکمل طور پر نہیں سمجھا سکتے۔

کم زیادہ مواد کے نشانات

اس تحقیق نے مضر قرار دیے گئے جوابات کے تناسب کا بھی موازنہ کیا۔ جیمنی کا تناسب 3.41% تھا، نوٹ بک ایل ایم کا 3.64%، جبکہ دستی جوابات کا 12.06% تھا۔ ایک اور اضافی ماڈل کے موازنے میں، Anthropic کا Claude Opus 4.7 پہلے نمبر پر رہا، جبکہ OpenAI کا ChatGPT 5.4 اس کے بعد آیا۔

تاہم، تحقیق یہ بھی ظاہر کرتی ہے کہ یہ ٹیسٹ یہ نہیں پیمانے کہ جوابات ہر پروفیسر کے اپنے تدریسی ترجیحات کے مطابق ہیں۔ اس لیے، AI جوابات عام طور پر قابل قبول ہو سکتے ہیں، لیکن ضروری نہیں کہ کسی ایک استاد کے تدریسی انداز کے ساتھ بالکل مطابقت رکھیں۔

قانونی صنعت اب بھی اپنائی کے رفتار کا جائزہ لے رہی ہے

اس تحقیق کے جاری ہونے کے وقت، عدالتوں، قانونی فریق اور قانونی کالجوں کو ای آئی کو قانونی عمل میں کیسے شامل کیا جائے اس پر بحث جاری ہے۔ حامیوں کا کہنا ہے کہ ای آئی قانونی خدمات کی کارکردگی بڑھا سکتی ہے اور مستقبل کے قانونی ملازمتوں کا ایک بنیادی ٹول بنے گی۔

لیکن قانونی صنعت AI کے جھوٹے نتائج کے مسئلے کے لیے اب بھی محتاط ہے۔ رپورٹ میں بتایا گیا ہے کہ اس سال اپریل میں، وکیل کی کمپنی Sullivan & Cromwell نے امریکی بینکروپس عدالت کو تسلیم کیا کہ ان کے ایک دستاویز میں AI کے ذریعہ تخلیق کردہ جھوٹے حوالہ جات شامل تھے۔