ستانفورڈ اور برکلے نے LLM-as-a-Verifier، ٹاپ ٹرمنل-بینچ اور SWE-بینچ کی تجویز کی

ME خبروں کے مطابق، 14 اپریل (UTC+8) کو، 1M AI خبروں کی نگرانی کے مطابق، AI پروگرامنگ ایجینٹ جب ایک ٹاسک کو متعدد بار چلاتا ہے، تو اکثر مختلف حل حاصل ہوتے ہیں، جن میں سے کچھ صحیح اور کچھ غلط ہوتے ہیں۔ اگر ان میں سے بہترین حل خودکار طور پر منتخب کیا جا سکے، تو کل کامیابی کی شرح بڑھ جائے گی۔ مسئلہ یہ ہے کہ اسے کیسے منتخب کیا جائے: دوسرے ماڈل کو جج کے طور پر استعمال کرنا (یعنی LLM-as-a-Judge) موجودہ عمل کا مرکزی طریقہ ہے، لیکن اس کا امتیازی سطح بہت کم ہوتا ہے اور اکثر مختلف حل کو ایک جیسا اسکور دے دیا جاتا ہے، جس سے فرق نہیں پڑتا۔ استنفورڈ AI لیب اور برکلے Sky Computing لیب نے نیوڈیا کے ساتھ مل کر LLM-as-a-Verifier پیش کیا ہے، جس نے اس منتخب کرنے کے عمل میں بہتری لائی ہے۔ صرف جج کے دیے گئے آخری اسکور پر نظر نہیں ڈالی جاتی، بلکہ ماڈل کی ہر اسکورنگ لیول پر احتمالات کی تقسیم پڑھی جاتی ہے، جس سے ایک مسلسل انعام کا حساب لگایا جاتا ہے۔ ساتھ ہی، جج کو متعدد بار جائزہ لینے کے لیے کہا جاتا ہے تاکہ تصادفی انحراف ختم ہو سکے، اور پورا جائزہ تین الگ الگ پہلوؤں (کیا ٹاسک کی ضرورت پوری ہو رہی ہے؟، آؤٹ پٹ فارمیٹ صحیح ہے؟، کیا غلط سگنل موجود ہے؟) میں تقسیم کر دیا جاتا ہے۔ تجربات میں Gemini 2.5 Flash کو ویریفائر کے طور پر استعمال کیا گیا، جس نے ایک بار ویریفکیشن میں 74.7% درستگی حاصل کی، جبکہ روایتی Judge صرف 57.0% تھا؛ 16 بار دہرائے جانے کے بعد Verifier نے 77.4% اور Judge نے 70.2% درستگی حاصل کی۔ روایتی Judge میں 26.5% مقابلے برابری پر ختم ہوئے، جبکہ Verifier نے تمام ترتیبات میں برابری کی شرح صفر فیصد رکھی۔ عملی اثر: Terminal-Bench 2 پر، GPT-5.4 کو ایک ہی ٹاسک پر پانچ بار چلانے پر، اتفاق سے انتخاب کرنے پر کامیابی کی شرح 81.8% تھی، جبکہ Verifier کے استعمال سے بڑھ کر 86.4% ہو گئی۔ SWE-Bench Verified پر، Claude Opus 4.5، Claude Opus 4.6 اور Gemini 3 Flash سے ایک ایک حل لے کر (کل تین)، انتخاب کے بعد کامیابی کی شرح 76.1% سے بڑھ کر 77.8% ہو گئی۔ 9 اپریل تک جاری ہونے پر، دونوں میدانوں میں وہ سب سے اوپر تھا۔ فریم ورک اوپن سورس ہو چکا ہے۔ (ذرائع: BlockBeats)