LangSmith lance plus de 30 modèles d'évaluation pour le test de la qualité des agents IA

Selon les nouvelles de ME, le 17 avril (UTC+8), selon les données de Beating, la plateforme de développement d'agents IA LangChain a lancé deux mises à jour pour son outil d'observabilité LangSmith : une bibliothèque de modèles d'évaluateurs et des évaluateurs réutilisables. Évaluer si un agent IA est « utilisable » est l'une des étapes les plus chronophages du développement actuel. Un agent peut appeler les bons outils mais produire un format de réponse incorrect, fonctionner correctement en conversation unique mais échouer en conversation multiround, ou donner une réponse finale apparemment raisonnable tout en récupérant des documents erronés lors des étapes intermédiaires. Les développeurs doivent définir des points de contrôle à plusieurs niveaux : étape unique, trajectoire complète, conversation multiround, appel spécifique à un outil, etc. Chaque évaluateur nécessite d'écrire des prompts, de les calibrer avec des données réelles et de les affiner itérativement — un processus qui peut prendre plusieurs semaines à partir de zéro. LangSmith propose désormais plus de 30 modèles prêts à l'emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompt, vérification de fuite d'informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (l'agent suit-il les bonnes étapes ?), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction) et multimodal (revue des sorties vocales et d'images). Ces modèles incluent des prompts d'évaluation LLM déjà optimisés et des évaluateurs basés sur des règles, prêts à être utilisés directement ou personnalisés, et compatibles à la fois pour la surveillance en ligne et les expériences hors ligne. Les évaluateurs réutilisables résolvent les problèmes de gestion au niveau organisationnel : le nouvel onglet « Evaluators » présente de manière centralisée tous les évaluateurs du workspace, permettant de les intégrer d'un seul clic à de nouveaux projets ; une mise à jour du prompt s'applique alors globalement, éliminant la nécessité de maintenir des copies redondantes dans chaque projet. Ces modèles sont同步 ouverts en source avec la version v0.2.0 d'openevals, qui ajoute désormais un support pour l'évaluation multimodale. (Source : BlockBeats)