স্ট্যানফোর্ড এবং বার্কলে LLM-as-a-Verifier, টপ টার্মিনাল-বেঞ্চ এবং SWE-বেঞ্চ প্রস্তাব করেছে

ME সংবাদের মতে, ১৪ এপ্রিল (UTC+8), 1M AI সংবাদের মনিটরিংয়ের ভিত্তিতে, AI প্রোগ্রামিং এজেন্ট একটি টাস্ক প্রতিবার চালানোর সময় প্রায়শই বিভিন্ন সমাধান পায়, যার মধ্যে কিছু সঠিক এবং কিছু ভুল। যদি সেই মধ্যে সর্বোত্তমটি স্বয়ংক্রিয়ভাবে বাছাই করা যায়, তবে মোট সফলতার হার একবারের চেয়ে বেশি হবে। সমস্যা হলো—কীভাবে বাছাই করবেন: অন্য একটি মডেলকে স্কোর দেওয়ার জন্য বিচারক হিসেবে ব্যবহার করা (অর্থাৎ LLM-as-a-Judge) বর্তমানের প্রচলিত পদ্ধতি, কিন্তু এই স্কোরিংয়ের গ্রেনুলারিটি খুবই মসৃণ, প্রায়শই বিভিন্ন সমাধানকে একই স্কোর দেয়, ফলে উত্তমতা চিহ্নিতকরণে ব্যর্থ। স্ট্যানফোর্ড AI ল্যাব এবং বার্কলি Sky Computing ল্যাব, NVIDIA-এর সঙ্গে মিলে LLM-as-a-Verifier পদ্ধতির প্রস্তাবনা করেছে, যা এই বাছাইয়ের প্রক্রিয়াকেউন্নতি করেছে।এখন,শুধুমাত্রবিচারকদ্বারাপ্রদত্তচূড়ান্তস্কোরদেখা‌হয়না,বরংমডেলটি‌প্রতিটি‌স্কোর‌গ্রেড‌এ‌প্রদত্ত‌সম্ভাবনার‌বণ্টন‌পড়ে‌একটি‌নিরবচ্ছিন্ন‌পুরস্কার‌মান‌গণনা‌করে।একইসঙ্গে,বিচারককে‌বহুবার‌পুনরায়‌মূল্যায়ন‌করতে‌হবে‌এবং‌গড়‌নিয়ে‌আসতে‌হবে,যাতে‌অনিশ্চয়তা‌দূর‌হয়,এবং‌সমগ্র‌মূল্যায়নকে‌তিনটি‌স্বতন্ত্র‌মাপদণ্ড‌(কি‌ভাবে‌টাস্কের‌অপেক্ষা‌পূরণ‌করছে,আউটপুট‌ফরম্যাট‌সঠিক‌কি,এবং‌ভুল‌সংকেত‌আছে‌কি)এর‌ভিত্তিতে‌পৃথকভাবে‌যাচাই‌করা‌হচ্ছে।পরীক্ষায়,Gemini 2.5 Flash-কে‌ভেরিফায়ার‌হিসেবে‌ব্যবহার‌করা‌হয়েছিল,একবারের‌ভেরিফিকেশন‌সঠিকতা‌74.7%,পুরনো Judge-এর 57.0%; 16বারপুনরাবৃত্তিরপরVerifier-এরসঠিকতা77.4%,Judge-এর70.2%।পুরনোJudge-এ26.5%পরীক্ষা‌পরিণতি‌ড্রয়-এশেষপায়,যখনVerifier-এসমস্তকনফিগারেশনেড্রয়-এরহার70%।বাস্তবপ্রভাব:Terminal-Bench 2-এ,GPT-5.4-কেএকইটাস্ক5বারচালানোহয়,এলোমেলোভাবেএকটি‌নির্‍বচ‍্ছ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍নির্‍বচ ছ ও ন য দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ দ খ ন জ (অসম্পূর্ণ)