Noticias de ME: el 14 de abril (UTC+8), según el monitoreo de 1M AI News, cuando los agentes de programación de IA procesan una tarea única, ejecutarlos múltiples veces a menudo produce soluciones diferentes, algunas correctas y otras incorrectas. Si se puede seleccionar automáticamente la mejor, la tasa de éxito general puede superar la de una sola ejecución. El problema radica en cómo elegirla: el enfoque dominante actual es hacer que otro modelo actúe como juez y otorgue puntuaciones (es decir, LLM-as-a-Judge), pero esta puntuación es demasiado gruesa y frecuentemente asigna la misma calificación a soluciones distintas, lo que impide distinguir entre ellas. El Laboratorio de IA de Stanford y el Laboratorio de Sky Computing de Berkeley, en colaboración con NVIDIA, propusieron LLM-as-a-Verifier, mejorando este proceso de selección. En lugar de observar únicamente la puntuación final otorgada por el juez, se lee la distribución de probabilidades del modelo en cada nivel de calificación para calcular un valor de recompensa continuo. Además, se hace que el juez evalúe repetidamente y se tome el promedio para eliminar sesgos aleatorios, y se divide la evaluación general en tres dimensiones independientes (si cumple con los requisitos de la tarea, si el formato de salida es correcto y si existe alguna señal de error) para verificarlas por separado. En los experimentos, se utilizó Gemini 2.5 Flash como verificador, logrando una precisión de verificación individual del 74,7%, frente al 57,0% del juez tradicional; tras 16 repeticiones, el verificador alcanzó el 77,4% y el juez el 70,2%. El juez tradicional tuvo un 26,5% de empates en comparaciones, mientras que el verificador registró una tasa de empates del 0% en todas las configuraciones. En términos de resultados prácticos: en Terminal-Bench 2, al ejecutar GPT-5.4 cinco veces la misma tarea y seleccionar aleatoriamente una solución, la tasa de éxito fue del 81,8%; tras seleccionar con el verificador, aumentó al 86,4%. En SWE-Bench Verified, al tomar una solución de cada uno de Claude Opus 4.5, Claude Opus 4.6 y Gemini 3 Flash (tres soluciones en total), la tasa mejoró del 76,1% al 77,8% tras la selección. Al momento de su lanzamiento el 9 de abril, ambos resultados ocupaban el primer lugar. El marco ya está disponible como código abierto. (Fuente: BlockBeats)
Stanford y Berkeley proponen LLM-as-a-Verifier, líder en Terminal-Bench y SWE-Bench
KuCoinFlashCompartir
Las principales noticias sobre altcoins del 14 de abril (UTC+8) muestran que el Stanford AI Lab y el Berkeley Sky Computing Lab, junto con NVIDIA, proponen LLM-as-a-Verifier para mejorar la selección de soluciones de IA. El método utiliza una recompensa continua a partir de distribuciones de calificaciones en evaluaciones, logrando un 77,4% de precisión tras 16 pruebas, superior al enfoque tradicional LLM-as-a-Judge con 70,2%. En Terminal-Bench 2 y SWE-Bench Verified, las tasas de éxito alcanzaron el 86,4% y el 77,8%, convirtiéndolo en el mejor rendimiento hasta el 9 de abril. El marco ya está disponible como código abierto. Las noticias sobre IA + cripto continúan destacando avances en verificación y rendimiento.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.