ستانفورد وبركلي تقترحان نموذج LLM كمُحقق، الأعلى في Terminal-Bench وSWE-Bench

أخبار ME، 14 أبريل (UTC+8)، وفقًا لمراقبة 1M AI News، عند معالجة وكيل البرمجة القائم على الذكاء الاصطناعي لمهمة واحدة، فإن تشغيله عدة مرات غالبًا ما ينتج حلولًا مختلفة، بعضها صحيح وبعضها خاطئ. إذا تمكّننا من اختيار أفضل حل تلقائيًا، فسيزداد معدل النجاح الكلي مقارنة بالتشغيل الفردي. المشكلة تكمن في كيفية الاختيار: استخدام نموذج آخر كحكم يُقيّم النقاط (أي LLM-as-a-Judge) هو الممارسة السائدة حاليًا، لكن دقة التقييم خشنة جدًا، وغالبًا ما تُمنح حلول مختلفة نفس الدرجة، مما يجعل من المستحيل التمييز بينها. قدم مختبر الذكاء الاصطناعي في ستانفورد ومختبر Sky Computing في بيركلي بالتعاون مع نيفيديا نهجًا محسّنًا يُسمى LLM-as-a-Verifier لتحسين عملية الاختيار هذه. بدلاً من الاعتماد فقط على الدرجة النهائية التي يمنحها الحكم، يقوم النموذج بقراءة توزيع الاحتمالات على كل مستوى تقييم، ثم حساب قيمة مكافأة مستمرة منها. كما يُعيد الحكم تقييم المهمة عدة مرات ويأخذ المتوسط لاستبعاد التحيز العرضي، ويفصل التقييم الشامل إلى ثلاثة أبعاد مستقلة (ما إذا كانت المهمة مُحققة، ما إذا كان تنسيق الإخراج صحيحًا، وما إذا كانت هناك إشارات خطأ) ويتحقق منها بشكل منفصل. في التجارب، استُخدم Gemini 2.5 Flash كمُحقق، وبلغت دقة التحقق الفردية 74.7% مقابل 57.0% للحكم التقليدي؛ وبعد 16 تكرارًا، وصل Verifier إلى 77.4% مقابل 70.2% للحكم. كان هناك 26.5% من المقارنات التي انتهت بالتعادل باستخدام الحكم التقليدي، بينما كانت نسبة التعادل لدى Verifier 0% في جميع التكوينات. في التطبيق العملي: على Terminal-Bench 2، عند تشغيل GPT-5.4 خمس مرات للمهمة نفسها واختيار حل عشوائي، كان معدل النجاح 81.8%، وارتفع إلى 86.4% باستخدام Verifier. على SWE-Bench Verified، عند أخذ حل واحد من كل من Claude Opus 4.5 وClaude Opus 4.6 وGemini 3 Flash (إجمالي 3 حلول)، ارتفع الأداء من 76.1% إلى 77.8% بعد الاختيار. اعتبارًا من تاريخ الإصدار في 9 أبريل، كان كلا النظامين في الصدارة. تم فتح إطار العمل للجمهور. (المصدر: BlockBeats)