LangSmith Meluncurkan 30+ Template Evaluasi untuk Pengujian Kualitas Agen AI

Berita ME, pada 17 April (UTC+8), menurut pemantauan Beating, alat observabilitas LangSmith dari platform pengembangan agen AI, LangChain, meluncurkan dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" merupakan salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawabannya salah, percakapan satu siklus berjalan lancar tetapi runtuh pada percakapan multi-siklus, jawaban akhir tampak masuk akal tetapi langkah tengahnya mengambil dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkatan—langkah tunggal, jejak lengkap, percakapan multi-siklus, dan pemanggilan alat tertentu—dan setiap evaluator harus melalui proses penulisan prompt, penyesuaian dengan data nyata, dan penyetelan berulang, yang bisa memakan waktu berminggu-minggu jika dimulai dari nol. LangSmith kini menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi prompt injection, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (keakuratan, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (distribusi bahasa, sinyal kepuasan), dan multimodal (tinjauan output suara dan gambar). Template ini mencakup prompt penilaian LLM yang telah disesuaikan dan evaluator berbasis aturan yang dapat langsung digunakan atau dimodifikasi sesuai kebutuhan, serta cocok untuk pemantauan daring dan eksperimen luring. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators baru menampilkan semua evaluator di dalam workspace secara terpusat, memungkinkan pemasangan satu klik ke proyek baru, sehingga pembaruan prompt berlaku secara global tanpa perlu memelihara salinan berulang di setiap proyek. Template-template ini juga dirilis sebagai open source bersama dengan openevals v0.2.0, yang menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)