LangSmith、AIエージェントの品質テスト用に30以上の評価テンプレートをリリース

iconKuCoinFlash
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
4月17日(UTC+8)、LangChainのLangSmithが、AIエージェントテスト用に30以上の評価テンプレートをリリースしました。このアップデートには、セーフティ、レスポンス品質、実行トレジャクトリー、ユーザー行動分析、マルチモーダルの5つのカテゴリにわたる評価者テンプレートライブラリと再利用可能な評価者が含まれます。これらのテンプレートは、オンライン監視とオフライン実験をサポートし、最適化されたLLMプロンプトとルールベースのコードを採用しています。新しい「Evaluators」タブにより、一元管理が可能になりました。テンプレートはopenevals v0.2.0としてオープンソース化され、マルチモーダル対応が追加されました。新たなトークン上場とAIツールが引き続き市場を形成しています。

MEニュース:4月17日(UTC+8)、動察Beatingの監視によると、AIエージェント開発プラットフォームLangChainの可観測性ツールLangSmithが、2つの新機能をリリースしました:評価テンプレートライブラリと再利用可能な評価器。 AIエージェントが「使いやすい」かどうかを評価することは、現在の開発プロセスで最も時間のかかる工程の一つです。エージェントは正しいツールを呼び出しているにもかかわらず回答形式が不適切だったり、単一会話では正常に動作するがマルチラウンド会話でクラッシュしたり、最終的な回答は妥当に見えるが中間ステップで誤ったドキュメントを参照していたりする可能性があります。開発者は、単一ステップ、完全なトラジェクトリー、マルチラウンド会話、特定のツール呼び出しなど、複数のレベルでチェックポイントを設定する必要があります。各評価器は、プロンプトの作成、実データによる調整、反復的な最適化を経なければならず、ゼロから構築すると数週間かかるのが一般的です。 LangSmithは今や、5つのカテゴリにまたがる30以上の既存テンプレートを提供します:セキュリティと保護(プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性)、回答品質(正確性、有用性、トーン)、実行トラジェクトリー(エージェントが正しいステップを踏んでいるか)、ユーザー行動分析(言語分布、満足度シグナル)、マルチモーダル(音声および画像出力のレビュー)。これらのテンプレートには、最適化済みのLLM評価プロンプトとルールベースのコード評価器が含まれており、そのまま使用するかカスタマイズして利用できます。オンライン監視とオフライン実験の両方に対応しています。 再利用可能な評価器は、組織レベルでの管理課題を解決します。新たに追加された「Evaluators」タブでは、ワークスペース内のすべての評価器を一覧表示し、ワンクリックで新規プロジェクトにアタッチ可能。プロンプトを更新すればグローバルに反映され、各プロジェクトで重複したコピーを管理する必要がなくなります。 上記のテンプレートはオープンソースとして公開され、openevals v0.2.0と共にリリースされ、マルチモーダル評価のサポートが追加されました。 (出典:BlockBeats)

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。