Notícia da ME, 14 de abril (UTC+8): De acordo com o monitoramento da 1M AI News, ao processar uma única tarefa, agentes de programação baseados em IA frequentemente produzem soluções diferentes em múltiplas execuções, algumas corretas e outras incorretas. Se for possível automatizar a seleção da melhor solução, a taxa de sucesso geral pode superar a de uma única execução. O desafio é como selecioná-la: o método dominante atual é usar outro modelo como árbitro para atribuir pontuações (ou seja, LLM-as-a-Judge), mas essa abordagem possui granularidade muito baixa, frequentemente atribuindo pontuações idênticas a soluções diferentes, tornando difícil distinguir a superior. O Laboratório de IA da Stanford e o Laboratório de Sky Computing da Berkeley, em parceria com a NVIDIA, propuseram o LLM-as-a-Verifier, aprimorando esse processo de seleção. Em vez de observar apenas a pontuação final atribuída pelo árbitro, o método analisa a distribuição de probabilidade do modelo em cada nível de avaliação, calculando um valor de recompensa contínuo. Além disso, o árbitro realiza múltiplas avaliações e calcula a média para eliminar viéses acidentais, dividindo a avaliação geral em três dimensões independentes (se a tarefa foi atendida, se o formato da saída está correto e se há sinais de erro) para verificação separada. Nos experimentos, o Gemini 2.5 Flash foi usado como verificador, alcançando uma precisão de 74,7% em uma única verificação, contra apenas 57,0% do Judge tradicional; após 16 repetições, o Verifier atingiu 77,4%, enquanto o Judge alcançou 70,2%. O Judge tradicional resultou em empates em 26,5% das comparações, enquanto o Verifier apresentou taxa de empate de 0% em todas as configurações. Em termos práticos: no Terminal-Bench 2, ao executar a mesma tarefa cinco vezes com o GPT-5.4 e escolher aleatoriamente uma solução, a taxa de sucesso foi de 81,8%; após seleção pelo Verifier, aumentou para 86,4%. No SWE-Bench Verified, ao selecionar uma solução de cada um dos modelos Claude Opus 4.5, Claude Opus 4.6 e Gemini 3 Flash (totalizando 3 soluções), a taxa subiu de 76,1% para 77,8% após seleção. Até a data de lançamento em 9 de abril, ambos os resultados estavam em primeiro lugar. O framework já está aberto ao público. (Fonte: BlockBeats)
Stanford e Berkeley propõem LLM como verificador, líder no Terminal-Bench e SWE-Bench
KuCoinFlashCompartilhar
Principais notícias de altcoins em 14 de abril (UTC+8) mostram o Stanford AI Lab e o Berkeley Sky Computing Lab, em parceria com a NVIDIA, propondo o LLM-as-a-Verifier para aprimorar a seleção de soluções de IA. O método utiliza uma recompensa contínua a partir de distribuições de avaliações, alcançando 77,4% de precisão após 16 testes, superando o tradicional LLM-as-a-Judge, com 70,2%. Nos benchmarks Terminal-Bench 2 e SWE-Bench Verified, as taxas de sucesso atingiram 86,4% e 77,8%, tornando-se o melhor desempenho até 9 de abril. O framework agora foi disponibilizado como código aberto. As notícias de IA + cripto continuam destacando avanços em verificação e desempenho.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.