LangSmith запускает более 30 шаблонов оценки для тестирования качества AI-агентов

Согласно новости ME, 17 апреля (UTC+8), по данным мониторинга Beating, инструмент наблюдаемости LangSmith, принадлежащий платформе разработки AI-агентов LangChain, выпустил два обновления: библиотеку шаблонов оценщиков и переиспользуемые оценщики. Оценка того, насколько «удобны» AI-агенты, является одним из самых трудоемких этапов в разработке. Агент может правильно вызывать инструменты, но выдавать ответ в неправильном формате, корректно работать в однократном диалоге, но сбоить в многократном, и выдавать внешне правдоподобный итоговый ответ, при этом на промежуточных этапах извлекая неверные документы. Разработчикам необходимо устанавливать контрольные точки на нескольких уровнях: от отдельных шагов до полных траекторий, многократных диалогов и специфических вызовов инструментов. Каждый оценщик требует написания промптов, калибровки по реальным данным и многократной настройки — от начала до готовности это может занять несколько недель. LangSmith теперь предоставляет более 30 готовых шаблонов, охватывающих пять категорий: безопасность и защита (обнаружение инъекций в промпты, проверка утечки личной информации, предвзятость и токсичность), качество ответов (корректность, полезность, тон), траектория выполнения (правильно ли агент прошел шаги), анализ поведения пользователя (распределение языка, сигналы удовлетворенности) и мультимодальность (проверка аудио- и видео-выводов). Шаблоны включают предварительно настроенные промпты для LLM и правила-based оценщики кода, которые можно использовать сразу или настраивать под свои нужды — как для онлайн-мониторинга, так и для оффлайн-экспериментов. Переиспользуемые оценщики решают организационные проблемы управления: новый раздел «Evaluators» централизованно отображает все оценщики в рабочей области, позволяя одним кликом подключать их к новым проектам; обновление промптов применяется глобально, без необходимости поддерживать дубликаты в каждом проекте. Вышеупомянутые шаблоны также опубликованы как открытый код вместе с выпуском openevals v0.2.0, который добавляет поддержку мультимодальной оценки. (Источник: BlockBeats)