LangSmith lanza 30+ plantillas de evaluación para la prueba de calidad de agentes de IA

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Las noticias de IA + cripto se publicaron el 17 de abril (UTC+8) cuando LangChain lanzó LangSmith con más de 30 plantillas de evaluación para probar agentes de IA. La actualización incluye una biblioteca de plantillas de evaluador y evaluadores reutilizables en cinco categorías: seguridad, calidad de la respuesta, trayectoria de ejecución, análisis del comportamiento del usuario y multimodal. Estas plantillas admiten monitoreo en línea y experimentos fuera de línea, con prompts de LLM optimizados y código basado en reglas. La nueva pestaña Evaluadores permite la gestión centralizada. Las plantillas están abiertas con openevals v0.2.0, añadiendo soporte multimodal. Nuevas listas de tokens y herramientas de IA continúan moldeando el mercado.

Noticias de ME, el 17 de abril (UTC+8), según el monitoreo de Beating, la herramienta de observabilidad LangSmith, perteneciente a la plataforma de desarrollo de agentes de IA LangChain, ha lanzado dos actualizaciones: una biblioteca de plantillas de evaluadores y evaluadores reutilizables. Evaluar si un agente de IA es "útil" es uno de los procesos más耗时 en el desarrollo actual. Un agente podría llamar a las herramientas correctas pero generar respuestas con formato incorrecto, funcionar bien en una sola conversación pero colapsar en múltiples rondas, o producir respuestas finales que parezcan razonables pero que hayan recuperado documentos erróneos en los pasos intermedios. Los desarrolladores necesitan establecer puntos de verificación en múltiples niveles: pasos individuales, trayectorias completas, conversaciones multironda y llamadas específicas a herramientas, y cada evaluador requiere escribir prompts, calibrarlos con datos reales y ajustarlos repetidamente, lo que puede llevar semanas desde cero. LangSmith ahora ofrece más de 30 plantillas listas para usar, cubriendo cinco categorías: seguridad y protección (detección de inyección de prompts, verificación de filtración de información personal, sesgo y toxicidad), calidad de la respuesta (exactitud, utilidad, tono), trayectoria de ejecución (si el agente siguió los pasos correctos), análisis del comportamiento del usuario (distribución del lenguaje, señales de satisfacción) y multimodalidad (revisión de salidas de voz e imagen). Las plantillas incluyen prompts de evaluación de LLM ya optimizados y evaluadores basados en reglas, listos para usar o personalizar, y aplicables tanto al monitoreo en línea como a experimentos fuera de línea. Los evaluadores reutilizables resuelven problemas de gestión a nivel organizacional: la nueva pestaña Evaluators muestra centralmente todos los evaluadores dentro del espacio de trabajo, permitiendo montarlos en nuevos proyectos con un solo clic; al actualizar los prompts, los cambios surten efecto globalmente, eliminando la necesidad de mantener copias duplicadas en cada proyecto. Estas plantillas se han liberado como código abierto junto con openevals v0.2.0, que añade soporte para evaluación multimodal. (Fuente: BlockBeats)

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.