Selon les nouvelles de ME, le 17 avril (UTC+8), selon les données de Beating, la plateforme de développement d'agents IA LangChain a lancé deux mises à jour pour son outil d'observabilité LangSmith : une bibliothèque de modèles d'évaluateurs et des évaluateurs réutilisables. Évaluer si un agent IA est « utilisable » est l'une des étapes les plus chronophages du développement actuel. Un agent peut appeler les bons outils mais produire un format de réponse incorrect, fonctionner correctement en conversation unique mais échouer en conversation multiround, ou donner une réponse finale apparemment raisonnable tout en récupérant des documents erronés lors des étapes intermédiaires. Les développeurs doivent définir des points de contrôle à plusieurs niveaux : étape unique, trajectoire complète, conversation multiround, appel spécifique à un outil, etc. Chaque évaluateur nécessite d'écrire des prompts, de les calibrer avec des données réelles et de les affiner itérativement — un processus qui peut prendre plusieurs semaines à partir de zéro. LangSmith propose désormais plus de 30 modèles prêts à l'emploi, couvrant cinq catégories : sécurité et protection (détection d'injection de prompt, vérification de fuite d'informations personnelles, biais et toxicité), qualité des réponses (exactitude, utilité, ton), trajectoire d'exécution (l'agent suit-il les bonnes étapes ?), analyse du comportement utilisateur (distribution linguistique, signaux de satisfaction) et multimodal (revue des sorties vocales et d'images). Ces modèles incluent des prompts d'évaluation LLM déjà optimisés et des évaluateurs basés sur des règles, prêts à être utilisés directement ou personnalisés, et compatibles à la fois pour la surveillance en ligne et les expériences hors ligne. Les évaluateurs réutilisables résolvent les problèmes de gestion au niveau organisationnel : le nouvel onglet « Evaluators » présente de manière centralisée tous les évaluateurs du workspace, permettant de les intégrer d'un seul clic à de nouveaux projets ; une mise à jour du prompt s'applique alors globalement, éliminant la nécessité de maintenir des copies redondantes dans chaque projet. Ces modèles sont同步 ouverts en source avec la version v0.2.0 d'openevals, qui ajoute désormais un support pour l'évaluation multimodale. (Source : BlockBeats)
LangSmith lance plus de 30 modèles d'évaluation pour le test de la qualité des agents IA
KuCoinFlashPartager






Les actualités sur l’IA et la crypto ont émergé le 17 avril (UTC+8) avec le déploiement de LangSmith par LangChain, qui propose plus de 30 modèles d’évaluation pour tester des agents IA. Cette mise à jour inclut une bibliothèque de modèles d’évaluateurs et des évaluateurs réutilisables dans cinq catégories : sécurité, qualité des réponses, trajectoire d’exécution, analyse du comportement utilisateur et multimodal. Ces modèles prennent en charge la surveillance en ligne et les expériences hors ligne, avec des invites LLM optimisées et du code basé sur des règles. Le nouvel onglet Évaluateurs permet une gestion centralisée. Les modèles sont open-source avec openevals v0.2.0, ajoutant une prise en charge multimodale. De nouvelles listings de jetons et des outils IA continuent de façonner le marché.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.