LangSmith lança 30+ modelos de avaliação para teste de qualidade de agentes de IA

Notícia da ME, 17 de abril (UTC+8): segundo monitoramento da Beating, a ferramenta de observabilidade LangSmith, da plataforma de desenvolvimento de agentes de IA LangChain, lançou duas atualizações: biblioteca de modelos de avaliadores e avaliadores reutilizáveis. Avaliar se um agente de IA é “usável” é um dos processos mais demorados no desenvolvimento atual. Agentes podem chamar as ferramentas corretas, mas apresentar respostas em formato incorreto; funcionar bem em diálogos únicos, mas falhar em conversas multirround; ou fornecer respostas finais aparentemente razoáveis, mas recuperar documentos errados nos passos intermediários. Desenvolvedores precisam definir pontos de verificação em múltiplos níveis: passo a passo, trajetória completa, diálogos multirround e chamadas específicas de ferramentas. Cada avaliador exige escrever prompts, calibrar com dados reais e refinar repetidamente — começar do zero pode levar semanas. Agora, a LangSmith oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompt, verificação de vazamento de informações pessoais, viés e toxicidade), qualidade da resposta (correção, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição linguística, sinais de satisfação) e multimodal (revisão de saídas de áudio e imagem). Os modelos incluem prompts de avaliação otimizados para LLMs e avaliadores baseados em regras, prontos para uso ou personalização, aplicáveis tanto ao monitoramento online quanto a experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba “Evaluators” exibe centralmente todos os avaliadores no workspace, permitindo vinculá-los a novos projetos com um clique; atualizações nos prompts são aplicadas globalmente, eliminando a necessidade de manter cópias duplicadas em cada projeto. Os modelos acima foram sincronizados como código aberto com o lançamento do openevals v0.2.0, que adiciona suporte a avaliações multimodais. (Fonte: BlockBeats)