Stanford e Berkeley propõem LLM como verificador, líder no Terminal-Bench e SWE-Bench

Notícia da ME, 14 de abril (UTC+8): De acordo com o monitoramento da 1M AI News, ao processar uma única tarefa, agentes de programação baseados em IA frequentemente produzem soluções diferentes em múltiplas execuções, algumas corretas e outras incorretas. Se for possível automatizar a seleção da melhor solução, a taxa de sucesso geral pode superar a de uma única execução. O desafio é como selecioná-la: o método dominante atual é usar outro modelo como árbitro para atribuir pontuações (ou seja, LLM-as-a-Judge), mas essa abordagem possui granularidade muito baixa, frequentemente atribuindo pontuações idênticas a soluções diferentes, tornando difícil distinguir a superior. O Laboratório de IA da Stanford e o Laboratório de Sky Computing da Berkeley, em parceria com a NVIDIA, propuseram o LLM-as-a-Verifier, aprimorando esse processo de seleção. Em vez de observar apenas a pontuação final atribuída pelo árbitro, o método analisa a distribuição de probabilidade do modelo em cada nível de avaliação, calculando um valor de recompensa contínuo. Além disso, o árbitro realiza múltiplas avaliações e calcula a média para eliminar viéses acidentais, dividindo a avaliação geral em três dimensões independentes (se a tarefa foi atendida, se o formato da saída está correto e se há sinais de erro) para verificação separada. Nos experimentos, o Gemini 2.5 Flash foi usado como verificador, alcançando uma precisão de 74,7% em uma única verificação, contra apenas 57,0% do Judge tradicional; após 16 repetições, o Verifier atingiu 77,4%, enquanto o Judge alcançou 70,2%. O Judge tradicional resultou em empates em 26,5% das comparações, enquanto o Verifier apresentou taxa de empate de 0% em todas as configurações. Em termos práticos: no Terminal-Bench 2, ao executar a mesma tarefa cinco vezes com o GPT-5.4 e escolher aleatoriamente uma solução, a taxa de sucesso foi de 81,8%; após seleção pelo Verifier, aumentou para 86,4%. No SWE-Bench Verified, ao selecionar uma solução de cada um dos modelos Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (totalizando 3 soluções), a taxa subiu de 76,1% para 77,8% após seleção. Até a data de lançamento em 9 de abril, ambos os resultados estavam em primeiro lugar. O framework já está aberto ao público. (Fonte: BlockBeats)