स्टैनफोर्ड और बर्कले ने LLM-as-a-Verifier, टॉप टर्मिनल-बेंच और SWE-बेंच का प्रस्ताव रखा

ME समाचार के अनुसार, 14 अप्रैल (UTC+8) को, 1M AI समाचार के अनुसार, AI प्रोग्रामिंग एजेंट एकल कार्य को कई बार चलाने पर अक्सर अलग-अलग समाधान प्राप्त करता है, जिनमें से कुछ सही हो सकते हैं और कुछ गलत। यदि इनमें से सर्वोत्तम समाधान को स्वचालित रूप से चुना जा सके, तो कुल सफलता दर एकल चलाने की तुलना में अधिक हो सकती है। समस्या यह है कि इसे कैसे चुनें: एक अन्य मॉडल को स्कोरिंग के लिए न्यायाधीश के रूप में उपयोग करना (अर्थात् LLM-as-a-Judge) वर्तमान में प्रचलित प्रथा है, लेकिन स्कोरिंग की बारीकी बहुत कम है, और अक्सर विभिन्न समाधानों को समान स्कोर दे दिया जाता है, जिससे उनकी तुलना मुश्किल हो जाती है। स्टैनफोर्ड AI प्रयोगशाला और बर्कले Sky Computing प्रयोगशाला ने NVIDIA के साथ मिलकर LLM-as-a-Verifier का प्रस्ताव दिया है, जिससे इस चयन प्रक्रिया में सुधार हुआ है। यहाँ केवल न्यायाधीश द्वारा प्रदान किए गए अंतिम स्कोर को ही नहीं, बल्कि प्रत्येक स्कोरिंग स्तर पर मॉडल की प्रायिकता वितरण को पढ़ा जाता है, और इससे एक सतत पुरस्कार मूल्य की गणना की जाती है। साथ ही, न्यायाधीश को कई बार मूल्यांकन करने के लिए कहा जाता है, और प्रतिफल का माध्य प्राप्त करने के लिए, संभावित प्रभावों को हटाया जाता है, साथ ही पूर्ण मूल्यांकन को तीन स्वतंत्र मापदंडों (क्या कार्य की मांगें पूरी हुईं, क्या आउटपुट प्रारूप सही है, क्या कोई त्रुटि संकेत मौजूद है) में विभाजित किया जाता है। प्रयोग में Gemini 2.5 Flash को प्रमाणीकरणकर्ता के रूप में प्रयोग किया गया, जिसकी एकल प्रमाणीकरण सटीकता 74.7% है, जबकि पारंपरिक Judge केवल 57.0% है; 16 पुनरावृत्तियों के बाद Verifier 77.4% पहुँचता है, Judge 70.2% है। पारंपरिक Judge में 26.5% मुकाबले बराबरी पर समाप्त हुए, Verifier में सभी कॉन्फ़िगरेशन में 0% की समानता-दर है। वास्तविक प्रभाव: Terminal-Bench 2 पर, GPT-5.4 को 5 बार समान कार्य करने के लिए, 81.8% सफलता मिली, Verifier के प्रयोग से 86.4% हो गई। SWE-Bench Verified पर, Claude Opus 4.5, Claude Opus 4.6, and Gemini 3 Flash से प्रत्येक से 1 समाधान (कुल 3) प्राप्त करके, Verifier के प्रयोग से 76.1% से 77.8% हो गया। 9अप्रैल, 2024 को प्रकाशित होने पर, दोनों में पहला स्थान प्राप्त हुआ। Framework open-source है। (स्रोत: BlockBeats)