LangSmith Melancarkan 30+ Templat Penilaian untuk Ujian Kualiti Agen AI

Berita ME, pada 17 April (UTC+8), menurut pemantauan Beating, alat keterlihatan LangSmith milik platform pengembangan agen AI, LangChain, telah melancarkan dua kemas kini: perpustakaan templat penilai dan penilai boleh digunakan semula. Menilai sama ada agen AI itu “mudah digunakan” merupakan salah satu tahap paling masa-intensive dalam pengembangan semasa ini. Agen mungkin memanggil alat yang betul tetapi format jawapan salah, perbualan satu langkah berjalan lancar tetapi runtuh dalam perbualan berbilang langkah, jawapan akhir kelihatan munasabah tetapi langkah pertengahan mengambil dokumen yang salah. Pembangun perlu menetapkan titik pemeriksaan di pelbagai peringkat—langkah tunggal, trajektori penuh, perbualan berbilang langkah, dan pemanggilan alat tertentu—dan setiap penilai mesti melalui proses penulisan prompt, penyesuaian dengan data sebenar, dan penajaman berulang; bermula dari sifar sering mengambil berbulan-bulan. LangSmith kini menyediakan lebih daripada 30 templat sedia ada yang merangkumi lima kategori: keselamatan dan perlindungan (pengesanan penyuntikan prompt, pemeriksaan kebocoran maklumat peribadi, prasangka dan toksisiti), kualiti jawapan (kebenaran, kegunaan, nada), trajektori pelaksanaan (adakah agen melalui langkah yang betul), analisis tingkah laku pengguna (taburan bahasa, isyarat kepuasan), dan multimodal (pemeriksaan output suara dan imej). Templat ini mengandungi prompt penilaian LLM yang telah ditajamkan dan penilai kod berdasarkan peraturan, yang boleh digunakan terus atau disesuaikan, serta sesuai untuk pemantauan dalam talian dan eksperimen luar talian. Penilai boleh digunakan semula menyelesaikan masalah pengurusan peringkat organisasi: tab Evaluators yang baharu memaparkan semua penilai dalam ruang kerja secara terpusat, boleh dipasang sekali sahaja ke projek baru, dan kemas kini prompt akan berkesan secara global tanpa perlu menyelenggara salinan berulang di setiap projek. Templat-templat ini disegerakan sebagai sumber terbuka bersama openevals v0.2.0, dengan sokongan tambahan untuk penilaian multimodal. (Sumber: BlockBeats)