Согласно новости ME, 17 апреля (UTC+8), по данным мониторинга Beating, инструмент наблюдаемости LangSmith, принадлежащий платформе разработки AI-агентов LangChain, выпустил два обновления: библиотеку шаблонов оценщиков и переиспользуемые оценщики. Оценка того, насколько «удобны» AI-агенты, является одним из самых трудоемких этапов в разработке. Агент может правильно вызывать инструменты, но выдавать ответ в неправильном формате, корректно работать в однократном диалоге, но сбоить в многократном, и выдавать внешне правдоподобный итоговый ответ, при этом на промежуточных этапах извлекая неверные документы. Разработчикам необходимо устанавливать контрольные точки на нескольких уровнях: от отдельных шагов до полных траекторий, многократных диалогов и специфических вызовов инструментов. Каждый оценщик требует написания промптов, калибровки по реальным данным и многократной настройки — от начала до готовности это может занять несколько недель. LangSmith теперь предоставляет более 30 готовых шаблонов, охватывающих пять категорий: безопасность и защита (обнаружение инъекций в промпты, проверка утечки личной информации, предвзятость и токсичность), качество ответов (корректность, полезность, тон), траектория выполнения (правильно ли агент прошел шаги), анализ поведения пользователя (распределение языка, сигналы удовлетворенности) и мультимодальность (проверка аудио- и видео-выводов). Шаблоны включают предварительно настроенные промпты для LLM и правила-based оценщики кода, которые можно использовать сразу или настраивать под свои нужды — как для онлайн-мониторинга, так и для оффлайн-экспериментов. Переиспользуемые оценщики решают организационные проблемы управления: новый раздел «Evaluators» централизованно отображает все оценщики в рабочей области, позволяя одним кликом подключать их к новым проектам; обновление промптов применяется глобально, без необходимости поддерживать дубликаты в каждом проекте. Вышеупомянутые шаблоны также опубликованы как открытый код вместе с выпуском openevals v0.2.0, который добавляет поддержку мультимодальной оценки. (Источник: BlockBeats)
LangSmith запускает более 30 шаблонов оценки для тестирования качества AI-агентов
KuCoinFlashПоделиться






Новости об ИИ и криптовалюте появились 17 апреля (UTC+8), когда LangChain выпустил более 30 шаблонов оценки для тестирования ИИ-агентов. Обновление включает библиотеку шаблонов оценщиков и повторно используемые оценщики в пяти категориях: безопасность, качество ответа, траектория выполнения, анализ поведения пользователя и мультимодальность. Эти шаблоны поддерживают онлайн-мониторинг и офлайн-эксперименты с оптимизированными промптами для LLM и правилами на основе кода. Новая вкладка «Оценщики» позволяет централизованно управлять ими. Шаблоны открыты с открытым исходным кодом в версии openevals v0.2.0, добавлена поддержка мультимодальности. Новые листинги токенов и инструменты ИИ продолжают формировать рынок.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.