Stanford y Berkeley proponen LLM-as-a-Verifier, líder en Terminal-Bench y SWE-Bench

Noticias de ME: el 14 de abril (UTC+8), según el monitoreo de 1M AI News, cuando los agentes de programación de IA procesan una tarea única, ejecutarlos múltiples veces a menudo produce soluciones diferentes, algunas correctas y otras incorrectas. Si se puede seleccionar automáticamente la mejor, la tasa de éxito general puede superar la de una sola ejecución. El problema radica en cómo elegirla: el enfoque dominante actual es hacer que otro modelo actúe como juez y otorgue puntuaciones (es decir, LLM-as-a-Judge), pero esta puntuación es demasiado gruesa y frecuentemente asigna la misma calificación a soluciones distintas, lo que impide distinguir entre ellas. El Laboratorio de IA de Stanford y el Laboratorio de Sky Computing de Berkeley, en colaboración con NVIDIA, propusieron LLM-as-a-Verifier, mejorando este proceso de selección. En lugar de observar únicamente la puntuación final otorgada por el juez, se lee la distribución de probabilidades del modelo en cada nivel de calificación para calcular un valor de recompensa continuo. Además, se hace que el juez evalúe repetidamente y se tome el promedio para eliminar sesgos aleatorios, y se divide la evaluación general en tres dimensiones independientes (si cumple con los requisitos de la tarea, si el formato de salida es correcto y si existe alguna señal de error) para verificarlas por separado. En los experimentos, se utilizó Gemini 2.5 Flash como verificador, logrando una precisión de verificación individual del 74,7%, frente al 57,0% del juez tradicional; tras 16 repeticiones, el verificador alcanzó el 77,4% y el juez el 70,2%. El juez tradicional tuvo un 26,5% de empates en comparaciones, mientras que el verificador registró una tasa de empates del 0% en todas las configuraciones. En términos de resultados prácticos: en Terminal-Bench 2, al ejecutar GPT-5.4 cinco veces la misma tarea y seleccionar aleatoriamente una solución, la tasa de éxito fue del 81,8%; tras seleccionar con el verificador, aumentó al 86,4%. En SWE-Bench Verified, al tomar una solución de cada uno de Claude Opus 4.5, Claude Opus 4.6 y Gemini 3 Flash (tres soluciones en total), la tasa mejoró del 76,1% al 77,8% tras la selección. Al momento de su lanzamiento el 9 de abril, ambos resultados ocupaban el primer lugar. El marco ya está disponible como código abierto. (Fuente: BlockBeats)