LangSmith запускає 30+ шаблонів оцінки для тестування якості AI-агентів

iconKuCoinFlash
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Новини про ШІ та криптовалюту з’явилися 17 квітня (UTC+8), коли LangChain запустив 30+ шаблонів оцінки для тестування агентів ШІ. Оновлення включає бібліотеку шаблонів оцінювачів та повторно використовувані оцінювачі в п’яти категоріях: безпека, якість відповіді, траєкторія виконання, аналіз поведінки користувача та мультимодальність. Ці шаблони підтримують онлайн-моніторинг та офлайн-експерименти з оптимізованими промптами для LLM та правилами на основі коду. Нова вкладка «Оцінювачі» дозволяє централізоване керування. Шаблони відкрито випущені з openevals v0.2.0, додавши підтримку мультимодальності. Нові лістинги токенів та інструменти ШІ продовжують формувати ринок.

ME News: 17 квітня (UTC+8), за даними Beating, платформа для розробки AI-агентів LangChain, дочірня компанія якої, LangSmith, представила два оновлення: бібліотеку шаблонів оцінювачів та повторно використовувані оцінювачі. Оцінка того, чи «зручний» AI-агент, є одним із найбільш часомістких етапів розробки. Агент може викликати правильні інструменти, але надавати неправильний формат відповіді, нормально працювати в однокроковому діалозі, але збиватися під час багатокрокового, а кінцева відповідь може здаватися логічною, але проміжні кроки отримують неправильні документи. Розробникам потрібно встановлювати контрольні точки на кількох рівнях: окремих кроках, повних траєкторіях, багатокрокових діалогах, спеціфічних викликах інструментів тощо. Кожен оцінювач вимагає написання промптів, налаштування на реальних даних та багаторазову оптимізацію — від початку це може зайняти кілька тижнів. LangSmith тепер надає понад 30 готових шаблонів, що охоплюють п’ять категорій: безпека та захист (виявлення ін’єкцій промптів, перевірка витоку особистих даних, упередження та токсичність), якість відповіді (коректність, корисність, тон), виконання траєкторії (чи пройшов агент правильні кроки), аналіз поведінки користувача (розподіл мови, сигнали задоволеності), мультимодальність (перевірка аудіо- та візуальних виводів). Шаблони містять вже оптимізовані промпти для LLM та правила-based оцінювачі коду, які можна використовувати без змін або налаштовувати під свої потреби — вони підходять як для онлайн-моніторингу, так і для офлайн-експериментів. Повторно використовувані оцінювачі вирішують організаційні проблеми управління: нова вкладка Evaluators централізовано виводить усі оцінювачі робочого простору, дозволяючи одним кліком підключити їх до нового проекту; оновлення промптів автоматично поширюється на всі проекти, не вимагаючи підтримки дублікатів у кожному окремому проекті. Вищезазначені шаблони одночасно випущені як відкритий код разом із openevals v0.2.0, який додає підтримку мультимодальних оцінювань. (Джерело: BlockBeats)

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.