Stanford et Berkeley proposent LLM-as-a-Verifier, premier sur Terminal-Bench et SWE-Bench

Selon les nouvelles de ME, le 14 avril (UTC+8), selon la surveillance de 1M AI News, lorsqu’un agent de programmation IA traite une tâche unique, l’exécution multiple produit souvent des solutions différentes, certaines correctes, d’autres non. Si l’on peut automatiquement sélectionner la meilleure, le taux de réussite global dépassera celui d’une seule exécution. La question réside dans la méthode de sélection : faire appel à un autre modèle comme juge pour attribuer des notes (LLM-as-a-Judge) est actuellement la pratique dominante, mais la granularité des notes est trop faible, et il est fréquent que des solutions différentes reçoivent la même note, rendant impossible la distinction entre elles. Le laboratoire d’IA de Stanford et le laboratoire Sky Computing de Berkeley, en collaboration avec NVIDIA, ont proposé LLM-as-a-Verifier, une amélioration de ce processus de sélection. Au lieu de se fier uniquement à la note finale attribuée par le juge, cette méthode analyse la distribution de probabilités du modèle sur chaque niveau de notation afin d’extraire une récompense continue. En outre, le juge évalue à plusieurs reprises et la moyenne est calculée pour éliminer les biais aléatoires, tout en décomposant l’évaluation globale en trois dimensions indépendantes (respect des exigences de la tâche, correction du format de sortie, présence ou non de signaux d’erreur) pour une vérification séparée. Dans les expériences, Gemini 2.5 Flash a été utilisé comme vérificateur, obtenant un taux de précision de 74,7 % pour une seule évaluation, contre 57,0 % pour le juge traditionnel ; après 16 évaluations répétées, le vérificateur atteint 77,4 % contre 70,2 % pour le juge. Le juge traditionnel aboutit à un match nul dans 26,5 % des comparaisons, tandis que le vérificateur enregistre un taux de match nul de 0 % dans toutes les configurations. En pratique : sur Terminal-Bench 2, en exécutant cinq fois la même tâche avec GPT-5.4 et en choisissant aléatoirement une solution, le taux de réussite est de 81,8 % ; après sélection par le vérificateur, il passe à 86,4 %. Sur SWE-Bench Verified, en prenant une solution chacune parmi Claude Opus 4.5, Claude Opus 4.6 et Gemini 3 Flash (soit trois solutions au total), le taux passe de 76,1 % à 77,8 % après sélection. Au moment de sa publication le 9 avril, ces deux résultats étaient en tête des classements. Le cadre est open source. (Source : BlockBeats)