Berita ME, pada 17 April (UTC+8), menurut pemantauan Beating, alat keterlihatan LangSmith milik platform pengembangan agen AI, LangChain, telah melancarkan dua kemas kini: perpustakaan templat penilai dan penilai boleh digunakan semula. Menilai sama ada agen AI itu “mudah digunakan” merupakan salah satu tahap paling masa-intensive dalam pengembangan semasa ini. Agen mungkin memanggil alat yang betul tetapi format jawapan salah, perbualan satu langkah berjalan lancar tetapi runtuh dalam perbualan berbilang langkah, jawapan akhir kelihatan munasabah tetapi langkah pertengahan mengambil dokumen yang salah. Pembangun perlu menetapkan titik pemeriksaan di pelbagai peringkat—langkah tunggal, trajektori penuh, perbualan berbilang langkah, dan pemanggilan alat tertentu—dan setiap penilai mesti melalui proses penulisan prompt, penyesuaian dengan data sebenar, dan penajaman berulang; bermula dari sifar sering mengambil berbulan-bulan. LangSmith kini menyediakan lebih daripada 30 templat sedia ada yang merangkumi lima kategori: keselamatan dan perlindungan (pengesanan penyuntikan prompt, pemeriksaan kebocoran maklumat peribadi, prasangka dan toksisiti), kualiti jawapan (kebenaran, kegunaan, nada), trajektori pelaksanaan (adakah agen melalui langkah yang betul), analisis tingkah laku pengguna (taburan bahasa, isyarat kepuasan), dan multimodal (pemeriksaan output suara dan imej). Templat ini mengandungi prompt penilaian LLM yang telah ditajamkan dan penilai kod berdasarkan peraturan, yang boleh digunakan terus atau disesuaikan, serta sesuai untuk pemantauan dalam talian dan eksperimen luar talian. Penilai boleh digunakan semula menyelesaikan masalah pengurusan peringkat organisasi: tab Evaluators yang baharu memaparkan semua penilai dalam ruang kerja secara terpusat, boleh dipasang sekali sahaja ke projek baru, dan kemas kini prompt akan berkesan secara global tanpa perlu menyelenggara salinan berulang di setiap projek. Templat-templat ini disegerakan sebagai sumber terbuka bersama openevals v0.2.0, dengan sokongan tambahan untuk penilaian multimodal. (Sumber: BlockBeats)
LangSmith Melancarkan 30+ Templat Penilaian untuk Ujian Kualiti Agen AI
KuCoinFlashKongsi






Berita AI + kripto muncul pada 17 April (UTC+8) apabila LangChain melancarkan LangSmith dengan lebih daripada 30 templat penilaian untuk pengujian agen AI. Kemas kini ini termasuk pustaka templat penilai dan penilai boleh digunakan semula dalam lima kategori: keselamatan, kualiti respons, trajektori pelaksanaan, analisis tingkah laku pengguna, dan multimodal. Templat-templat ini menyokong pemantauan dalam talian dan eksperimen luar talian, dengan promp LLM yang dioptimumkan dan kod berdasarkan peraturan. Tab Penilai baharu membenarkan pengurusan terpusat. Templat-templat ini dibuka sumber bersama openevals v0.2.0, menambah sokongan multimodal. Senarai token baharu dan alat AI terus membentuk pasaran.
Sumber:Tunjukkan artikel asal
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.