LangSmith, AI Ajan Kalitesi Testi İçin 30+ Değerlendirme Şablonu İnceliyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
AI ve kripto haberleri, 17 Nisan (UTC+8) tarihinde LangChain’in LangSmith’i, AI ajan testleri için 30’dan fazla değerlendirme şablonu yayınladığında ortaya çıktı. Güncelleme, güvenlik, yanıt kalitesi, yürütme yolu, kullanıcı davranış analizi ve çoklu modallik olmak üzere beş kategoride kullanılabilecek bir değerlendirme şablonu kütüphanesi ve yeniden kullanılabilir değerlendiriciler içeriyor. Bu şablonlar, optimize edilmiş LLM talimatları ve kural tabanlı kodlarla çevrimiçi izleme ve çevrimdışı deneyler destekliyor. Yeni “Değerlendiriciler” sekmesi, merkezi yönetim imkanı sunuyor. Şablonlar, çoklu modallik desteği ekleyen openevals v0.2.0 ile açık kaynak kodlu hale getirildi. Yeni token listelemeleri ve AI araçları piyasayı şekillendirmeye devam ediyor.

ME Haberleri'ne göre, 17 Nisan (UTC+8) tarihinde, Beating tarafından izlendiğine göre, AI ajant geliştirme platformu LangChain'in gözetlenebilirlik aracı LangSmith, iki yeni güncelleme yayınladı: Değerlendirici şablon kütüphanesi ve yeniden kullanılabilir değerlendirme araçları. AI ajantların "kullanılabilir" olup olmadığının değerlendirilmesi, şu anda geliştirme sürecinin en zaman alan aşamalarından biridir. Ajantlar doğru araçları çağırabilir ancak yanıt formatı yanlış olabilir, tek aşamalı diyaloglar sorunsuz çalışırken çok aşamalı diyaloglarda çökebilir veya nihai cevap mantıklı görünürken ara adımlarda yanlış belgeler alınmış olabilir. Geliştiriciler, tek adımlı, tam izleme, çok aşamalı diyaloglar ve belirli araç çağrıları gibi birçok seviyede kontrol noktaları ayarlamak zorundadır; her değerlendirme aracı ise, ipuçları yazma, gerçek verilerle kalibrasyon ve tekrarlı iyileştirme süreçlerinden geçer ve sıfırdan başlandığında bu süreç genellikle haftalar sürer. LangSmith artık beş kategoriye yönelik 30'dan fazla hazır şablon sunuyor: Güvenlik ve koruma (ipucu enjeksiyonu tespiti, kişisel veri sızıntısı kontrolü, önyargı ve zehirli içerik), yanıt kalitesi (doğruluk, faydalılık, ton), yürütme izi (ajantın doğru adımları takip edip etmediği), kullanıcı davranış analizi (dil dağılımı, memnuniyet sinyalleri) ve çok modlu (ses ve görüntü çıktıları incelemesi). Şablonlar, önceden optimize edilmiş LLM değerlendirme ipuçlarını ve kural tabanlı kod değerlendirme araçlarını içerir; doğrudan kullanılabilir veya özelleştirilebilir ve hem canlı izleme hem de ofline deneyler için uygundur. Yeniden kullanılabilir değerlendirme araçları ise organizasyonel yönetim sorunlarını çözer: Yeni eklenen "Evaluators" sekmesi, çalışma alanındaki tüm değerlendirme araçlarını tek bir yerde gösterir; yeni projelere tek tıkla bağlanabilir, ipuçları güncellendiğinde tüm projelerde otomatik olarak etkili olur ve her projede tekrarlayan kopyaları yönetmek gerekmez. Yukarıdaki şablonlar, openevals v0.2.0 ile birlikte açık kaynak olarak yayınlandı ve çok modlu değerlendirme desteği eklendi. (Kaynak: BlockBeats)

Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.