LangSmith lança 30+ modelos de avaliação para teste de qualidade de agentes de IA

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
Notícias de IA + cripto estouraram em 17 de abril (UTC+8) com o lançamento do LangSmith da LangChain, que introduziu mais de 30 modelos de avaliação para teste de agentes de IA. A atualização inclui uma biblioteca de modelos de avaliador e avaliadores reutilizáveis em cinco categorias: segurança, qualidade da resposta, trajetória de execução, análise do comportamento do usuário e multimodal. Esses modelos suportam monitoramento online e experimentos offline, com prompts de LLM otimizados e código baseado em regras. A nova aba Avaliadores permite gerenciamento centralizado. Os modelos foram abertos com o openevals v0.2.0, adicionando suporte multimodal. Novas listagens de tokens e ferramentas de IA continuam moldando o mercado.

Notícia da ME, 17 de abril (UTC+8): segundo monitoramento da Beating, a ferramenta de observabilidade LangSmith, da plataforma de desenvolvimento de agentes de IA LangChain, lançou duas atualizações: biblioteca de modelos de avaliadores e avaliadores reutilizáveis. Avaliar se um agente de IA é “usável” é um dos processos mais demorados no desenvolvimento atual. Agentes podem chamar as ferramentas corretas, mas apresentar respostas em formato incorreto; funcionar bem em diálogos únicos, mas falhar em conversas multirround; ou fornecer respostas finais aparentemente razoáveis, mas recuperar documentos errados nos passos intermediários. Desenvolvedores precisam definir pontos de verificação em múltiplos níveis: passo a passo, trajetória completa, diálogos multirround e chamadas específicas de ferramentas. Cada avaliador exige escrever prompts, calibrar com dados reais e refinar repetidamente — começar do zero pode levar semanas. Agora, a LangSmith oferece mais de 30 modelos prontos, cobrindo cinco categorias: segurança e proteção (detecção de injeção de prompt, verificação de vazamento de informações pessoais, viés e toxicidade), qualidade da resposta (correção, utilidade, tom), trajetória de execução (se o agente seguiu os passos corretos), análise de comportamento do usuário (distribuição linguística, sinais de satisfação) e multimodal (revisão de saídas de áudio e imagem). Os modelos incluem prompts de avaliação otimizados para LLMs e avaliadores baseados em regras, prontos para uso ou personalização, aplicáveis tanto ao monitoramento online quanto a experimentos offline. Os avaliadores reutilizáveis resolvem problemas de gestão organizacional: a nova aba “Evaluators” exibe centralmente todos os avaliadores no workspace, permitindo vinculá-los a novos projetos com um clique; atualizações nos prompts são aplicadas globalmente, eliminando a necessidade de manter cópias duplicadas em cada projeto. Os modelos acima foram sincronizados como código aberto com o lançamento do openevals v0.2.0, que adiciona suporte a avaliações multimodais. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.