ME خبروں کے مطابق، 14 اپریل (UTC+8) کو، 1M AI خبروں کی نگرانی کے مطابق، AI پروگرامنگ ایجینٹ جب ایک ٹاسک کو متعدد بار چلاتا ہے، تو اکثر مختلف حل حاصل ہوتے ہیں، جن میں سے کچھ صحیح اور کچھ غلط ہوتے ہیں۔ اگر ان میں سے بہترین حل خودکار طور پر منتخب کیا جا سکے، تو کل کامیابی کی شرح بڑھ جائے گی۔ مسئلہ یہ ہے کہ اسے کیسے منتخب کیا جائے: دوسرے ماڈل کو جج کے طور پر استعمال کرنا (یعنی LLM-as-a-Judge) موجودہ عمل کا مرکزی طریقہ ہے، لیکن اس کا امتیازی سطح بہت کم ہوتا ہے اور اکثر مختلف حل کو ایک جیسا اسکور دے دیا جاتا ہے، جس سے فرق نہیں پڑتا۔ استنفورڈ AI لیب اور برکلے Sky Computing لیب نے نیوڈیا کے ساتھ مل کر LLM-as-a-Verifier پیش کیا ہے، جس نے اس منتخب کرنے کے عمل میں بہتری لائی ہے۔ صرف جج کے دیے گئے آخری اسکور پر نظر نہیں ڈالی جاتی، بلکہ ماڈل کی ہر اسکورنگ لیول پر احتمالات کی تقسیم پڑھی جاتی ہے، جس سے ایک مسلسل انعام کا حساب لگایا جاتا ہے۔ ساتھ ہی، جج کو متعدد بار جائزہ لینے کے لیے کہا جاتا ہے تاکہ تصادفی انحراف ختم ہو سکے، اور پورا جائزہ تین الگ الگ پہلوؤں (کیا ٹاسک کی ضرورت پوری ہو رہی ہے؟، آؤٹ پٹ فارمیٹ صحیح ہے؟، کیا غلط سگنل موجود ہے؟) میں تقسیم کر دیا جاتا ہے۔ تجربات میں Gemini 2.5 Flash کو ویریفائر کے طور پر استعمال کیا گیا، جس نے ایک بار ویریفکیشن میں 74.7% درستگی حاصل کی، جبکہ روایتی Judge صرف 57.0% تھا؛ 16 بار دہرائے جانے کے بعد Verifier نے 77.4% اور Judge نے 70.2% درستگی حاصل کی۔ روایتی Judge میں 26.5% مقابلے برابری پر ختم ہوئے، جبکہ Verifier نے تمام ترتیبات میں برابری کی شرح صفر فیصد رکھی۔ عملی اثر: Terminal-Bench 2 پر، GPT-5.4 کو ایک ہی ٹاسک پر پانچ بار چلانے پر، اتفاق سے انتخاب کرنے پر کامیابی کی شرح 81.8% تھی، جبکہ Verifier کے استعمال سے بڑھ کر 86.4% ہو گئی۔ SWE-Bench Verified پر، Claude Opus 4.5، Claude Opus 4.6 اور Gemini 3 Flash سے ایک ایک حل لے کر (کل تین)، انتخاب کے بعد کامیابی کی شرح 76.1% سے بڑھ کر 77.8% ہو گئی۔ 9 اپریل تک جاری ہونے پر، دونوں میدانوں میں وہ سب سے اوپر تھا۔ فریم ورک اوپن سورس ہو چکا ہے۔ (ذرائع: BlockBeats)
ستانفورڈ اور برکلے نے LLM-as-a-Verifier، ٹاپ ٹرمنل-بینچ اور SWE-بینچ کی تجویز کی
KuCoinFlashبانٹیں
14 اپریل (UTC+8) کو ٹاپ آلٹ کوائن کی خبریں ظاہر کرتی ہیں کہ اسٹینفورڈ AI لیب اور بیرکلے سکائی کمپیوٹنگ لیب، NVIDIA کے ساتھ، AI حل کے انتخاب کو بہتر بنانے کے لیے LLM-as-a-Verifier پیش کر رہے ہیں۔ یہ طریقہ تقویم کے دوران ریٹنگ کی توزیع سے مسلسل انعام استعمال کرتا ہے، جس نے 16 ٹیسٹ کے بعد 77.4% درستگی حاصل کی، جو روایتی LLM-as-a-Judge کی 70.2% کے مقابلے میں بہتر ہے۔ ٹرمینل-بینچ 2 اور SWE-بینچ ویریفائیڈ پر کامیابی کی شرح 86.4% اور 77.8% تک پہنچ گئی، جس سے 9 اپریل تک یہ سب سے بہترین کارکردگی والی تھی۔ یہ فریم ورک اب اوپن سورس ہو چکا ہے۔ AI + کرپٹو کی خبریں مسلسل تصدیق اور کارکردگی میں نمایاں کامیابیوں پر زور دے رہی ہیں۔
ذریعہ:اصل دکھائیں۔
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔
ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔