LangSmith, AI Ajan Kalitesi Testi İçin 30+ Değerlendirme Şablonu İnceliyor

ME Haberleri'ne göre, 17 Nisan (UTC+8) tarihinde, Beating tarafından izlendiğine göre, AI ajant geliştirme platformu LangChain'in gözetlenebilirlik aracı LangSmith, iki yeni güncelleme yayınladı: Değerlendirici şablon kütüphanesi ve yeniden kullanılabilir değerlendirme araçları. AI ajantların "kullanılabilir" olup olmadığının değerlendirilmesi, şu anda geliştirme sürecinin en zaman alan aşamalarından biridir. Ajantlar doğru araçları çağırabilir ancak yanıt formatı yanlış olabilir, tek aşamalı diyaloglar sorunsuz çalışırken çok aşamalı diyaloglarda çökebilir veya nihai cevap mantıklı görünürken ara adımlarda yanlış belgeler alınmış olabilir. Geliştiriciler, tek adımlı, tam izleme, çok aşamalı diyaloglar ve belirli araç çağrıları gibi birçok seviyede kontrol noktaları ayarlamak zorundadır; her değerlendirme aracı ise, ipuçları yazma, gerçek verilerle kalibrasyon ve tekrarlı iyileştirme süreçlerinden geçer ve sıfırdan başlandığında bu süreç genellikle haftalar sürer. LangSmith artık beş kategoriye yönelik 30'dan fazla hazır şablon sunuyor: Güvenlik ve koruma (ipucu enjeksiyonu tespiti, kişisel veri sızıntısı kontrolü, önyargı ve zehirli içerik), yanıt kalitesi (doğruluk, faydalılık, ton), yürütme izi (ajantın doğru adımları takip edip etmediği), kullanıcı davranış analizi (dil dağılımı, memnuniyet sinyalleri) ve çok modlu (ses ve görüntü çıktıları incelemesi). Şablonlar, önceden optimize edilmiş LLM değerlendirme ipuçlarını ve kural tabanlı kod değerlendirme araçlarını içerir; doğrudan kullanılabilir veya özelleştirilebilir ve hem canlı izleme hem de ofline deneyler için uygundur. Yeniden kullanılabilir değerlendirme araçları ise organizasyonel yönetim sorunlarını çözer: Yeni eklenen "Evaluators" sekmesi, çalışma alanındaki tüm değerlendirme araçlarını tek bir yerde gösterir; yeni projelere tek tıkla bağlanabilir, ipuçları güncellendiğinde tüm projelerde otomatik olarak etkili olur ve her projede tekrarlayan kopyaları yönetmek gerekmez. Yukarıdaki şablonlar, openevals v0.2.0 ile birlikte açık kaynak olarak yayınlandı ve çok modlu değerlendirme desteği eklendi. (Kaynak: BlockBeats)