LangSmith Meluncurkan 30+ Template Evaluasi untuk Pengujian Kualitas Agen AI

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Berita AI + kripto muncul pada 17 April (UTC+8) ketika LangChain meluncurkan LangSmith dengan lebih dari 30 template evaluasi untuk pengujian agen AI. Pembaruan ini mencakup perpustakaan template evaluator dan evaluator yang dapat digunakan kembali di lima kategori: keamanan, kualitas respons, lintasan eksekusi, analisis perilaku pengguna, dan multimodal. Template ini mendukung pemantauan daring dan eksperimen luring, dengan prompt LLM yang dioptimalkan dan kode berbasis aturan. Tab Evaluator baru memungkinkan manajemen terpusat. Template ini telah di-open-source dengan openevals v0.2.0, menambahkan dukungan multimodal. Pencatatan token baru dan alat AI terus membentuk pasar.

Berita ME, pada 17 April (UTC+8), menurut pemantauan Beating, alat observabilitas LangSmith dari platform pengembangan agen AI, LangChain, meluncurkan dua pembaruan: perpustakaan template evaluator dan evaluator yang dapat digunakan kembali. Menilai apakah agen AI "mudah digunakan" merupakan salah satu tahap paling memakan waktu dalam pengembangan saat ini. Agen mungkin memanggil alat yang benar tetapi format jawabannya salah, percakapan satu siklus berjalan lancar tetapi runtuh pada percakapan multi-siklus, jawaban akhir tampak masuk akal tetapi langkah tengahnya mengambil dokumen yang salah. Pengembang perlu menetapkan titik pemeriksaan di berbagai tingkatan—langkah tunggal, jejak lengkap, percakapan multi-siklus, dan pemanggilan alat tertentu—dan setiap evaluator harus melalui proses penulisan prompt, penyesuaian dengan data nyata, dan penyetelan berulang, yang bisa memakan waktu berminggu-minggu jika dimulai dari nol. LangSmith kini menyediakan lebih dari 30 template siap pakai yang mencakup lima kategori: keamanan dan perlindungan (deteksi prompt injection, pemeriksaan kebocoran informasi pribadi, bias dan toksisitas), kualitas jawaban (keakuratan, kegunaan, nada), jejak eksekusi (apakah agen mengikuti langkah yang benar), analisis perilaku pengguna (distribusi bahasa, sinyal kepuasan), dan multimodal (tinjauan output suara dan gambar). Template ini mencakup prompt penilaian LLM yang telah disesuaikan dan evaluator berbasis aturan yang dapat langsung digunakan atau dimodifikasi sesuai kebutuhan, serta cocok untuk pemantauan daring dan eksperimen luring. Evaluator yang dapat digunakan kembali menyelesaikan masalah manajemen tingkat organisasi: tab Evaluators baru menampilkan semua evaluator di dalam workspace secara terpusat, memungkinkan pemasangan satu klik ke proyek baru, sehingga pembaruan prompt berlaku secara global tanpa perlu memelihara salinan berulang di setiap proyek. Template-template ini juga dirilis sebagai open source bersama dengan openevals v0.2.0, yang menambahkan dukungan evaluasi multimodal. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.