LangSmith запускає 30+ шаблонів оцінки для тестування якості AI-агентів

ME News: 17 квітня (UTC+8), за даними Beating, платформа для розробки AI-агентів LangChain, дочірня компанія якої, LangSmith, представила два оновлення: бібліотеку шаблонів оцінювачів та повторно використовувані оцінювачі. Оцінка того, чи «зручний» AI-агент, є одним із найбільш часомістких етапів розробки. Агент може викликати правильні інструменти, але надавати неправильний формат відповіді, нормально працювати в однокроковому діалозі, але збиватися під час багатокрокового, а кінцева відповідь може здаватися логічною, але проміжні кроки отримують неправильні документи. Розробникам потрібно встановлювати контрольні точки на кількох рівнях: окремих кроках, повних траєкторіях, багатокрокових діалогах, спеціфічних викликах інструментів тощо. Кожен оцінювач вимагає написання промптів, налаштування на реальних даних та багаторазову оптимізацію — від початку це може зайняти кілька тижнів. LangSmith тепер надає понад 30 готових шаблонів, що охоплюють п’ять категорій: безпека та захист (виявлення ін’єкцій промптів, перевірка витоку особистих даних, упередження та токсичність), якість відповіді (коректність, корисність, тон), виконання траєкторії (чи пройшов агент правильні кроки), аналіз поведінки користувача (розподіл мови, сигнали задоволеності), мультимодальність (перевірка аудіо- та візуальних виводів). Шаблони містять вже оптимізовані промпти для LLM та правила-based оцінювачі коду, які можна використовувати без змін або налаштовувати під свої потреби — вони підходять як для онлайн-моніторингу, так і для офлайн-експериментів. Повторно використовувані оцінювачі вирішують організаційні проблеми управління: нова вкладка Evaluators централізовано виводить усі оцінювачі робочого простору, дозволяючи одним кліком підключити їх до нового проекту; оновлення промптів автоматично поширюється на всі проекти, не вимагаючи підтримки дублікатів у кожному окремому проекті. Вищезазначені шаблони одночасно випущені як відкритий код разом із openevals v0.2.0, який додає підтримку мультимодальних оцінювань. (Джерело: BlockBeats)