LangSmith lanza 30+ plantillas de evaluación para la prueba de calidad de agentes de IA

Noticias de ME, el 17 de abril (UTC+8), según el monitoreo de Beating, la herramienta de observabilidad LangSmith, perteneciente a la plataforma de desarrollo de agentes de IA LangChain, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables. Evaluar si un agente de IA es "útil" es uno de los procesos más耗时 en el desarrollo actual. Un agente podría llamar a las herramientas correctas pero generar respuestas con formato incorrecto, funcionar bien en una sola conversación pero colapsar en múltiples rondas, o producir respuestas finales que parezcan razonables pero que hayan recuperado documentos erróneos en los pasos intermedios. Los desarrolladores necesitan establecer puntos de verificación en múltiples niveles: pasos individuales, trayectorias completas, conversaciones multironda y llamadas específicas a herramientas, y cada evaluador requiere escribir prompts, calibrarlos con datos reales y ajustarlos repetidamente, lo que puede llevar semanas desde cero. LangSmith ahora ofrece más de 30 plantillas listas para usar, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, verificación de filtración de información personal, sesgo y toxicidad), calidad de la respuesta (exactitud, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción) y multimodalidad (revisión de salidas de voz e imagen). Las plantillas incluyen prompts de evaluación de LLM ya optimizados y evaluadores basados en reglas, listos para usar o personalizar, y aplicables tanto al monitoreo en línea como a experimentos fuera de línea. Los evaluadores reutilizables resuelven problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra centralmente todos los evaluadores dentro del espacio de trabajo, permitiendo montarlos en nuevos proyectos con un solo clic; al actualizar los prompts, los cambios surten efecto globalmente, eliminando la necesidad de mantener copias duplicadas en cada proyecto. Estas plantillas se han liberado como código abierto junto con openevals v0.2.0, que añade soporte para evaluación multimodal. (Fuente: BlockBeats)