LangSmith、AIエージェントの品質テスト用に30以上の評価テンプレートをリリース

MEニュース：4月17日（UTC+8）、動察Beatingの監視によると、AIエージェント開発プラットフォームLangChainの可観測性ツールLangSmithが、2つの新機能をリリースしました：評価テンプレートライブラリと再利用可能な評価器。 AIエージェントが「使いやすい」かどうかを評価することは、現在の開発プロセスで最も時間のかかる工程の一つです。エージェントは正しいツールを呼び出しているにもかかわらず回答形式が不適切だったり、単一会話では正常に動作するがマルチラウンド会話でクラッシュしたり、最終的な回答は妥当に見えるが中間ステップで誤ったドキュメントを参照していたりする可能性があります。開発者は、単一ステップ、完全なトラジェクトリー、マルチラウンド会話、特定のツール呼び出しなど、複数のレベルでチェックポイントを設定する必要があります。各評価器は、プロンプトの作成、実データによる調整、反復的な最適化を経なければならず、ゼロから構築すると数週間かかるのが一般的です。 LangSmithは今や、5つのカテゴリにまたがる30以上の既存テンプレートを提供します：セキュリティと保護（プロンプトインジェクション検出、個人情報漏洩チェック、偏見と毒性）、回答品質（正確性、有用性、トーン）、実行トラジェクトリー（エージェントが正しいステップを踏んでいるか）、ユーザー行動分析（言語分布、満足度シグナル）、マルチモーダル（音声および画像出力のレビュー）。これらのテンプレートには、最適化済みのLLM評価プロンプトとルールベースのコード評価器が含まれており、そのまま使用するかカスタマイズして利用できます。オンライン監視とオフライン実験の両方に対応しています。再利用可能な評価器は、組織レベルでの管理課題を解決します。新たに追加された「Evaluators」タブでは、ワークスペース内のすべての評価器を一覧表示し、ワンクリックで新規プロジェクトにアタッチ可能。プロンプトを更新すればグローバルに反映され、各プロジェクトで重複したコピーを管理する必要がなくなります。上記のテンプレートはオープンソースとして公開され、openevals v0.2.0と共にリリースされ、マルチモーダル評価のサポートが追加されました。（出典：BlockBeats）