LangSmith ने AI एजेंट क्वालिटी टेस्टिंग के लिए 30+ ईवैलुएशन टेम्पलेट्स लॉन्च किए

ME News के अनुसार, 17 अप्रैल (UTC+8) को, डोंगचा बीटिंग के अनुसार, AI एजेंट डेवलपमेंट प्लेटफॉर्म LangChain के ओब्जर्वेबिलिटी टूल LangSmith ने दो अपडेट जारी किए हैं: एवलुएटर टेम्पलेट लाइब्रेरी और रीयूज़ेबल एवलुएटर। AI एजेंट की "उपयोगिता" का मूल्यांकन वर्तमान में डेवलपमेंट का सबसे समय-लेने वाला पहलू है। एजेंट सही टूल्स को कॉल कर सकता है, लेकिन उत्तर का फॉर्मेट गलत हो सकता है, एकल-राउंड डायलॉग सही हो सकता है, लेकिन मल्टी-राउंड में क्रैश हो सकता है, या अंतिम उत्तर तो तर्कसंगत लग सकता है, लेकिन मध्यवर्ती चरणों में गलत दस्तावेज़ प्राप्त किए जा सकते हैं। डेवलपर्स को एकल-स्टेप, पूर्ण ट्रैजेक्टरी, मल्टी-राउंड डायलॉग, और विशिष्ट टूल कॉल जैसे कई स्तरों पर चेकपॉइंट्स सेट करने की आवश्यकता होती है, और प्रत्येक एवलुएटर के लिए प्रॉम्प्ट लिखने, वास्तविक डेटा के साथ कैलिब्रेट करने, और बार-बार ऑप्टिमाइज़ करने की प्रक्रिया होती है—शून्य से शुरू करने पर अक्सर कई सप्ताह लगते हैं। अब LangSmith 30 से अधिक पहले से तैयार टेम्पलेट प्रदान करता है, जो पाँच श्रेणियों को कवर करते हैं: सुरक्षा और सुरक्षा (प्रॉम्प्ट इंजेक्शन डिटेक्शन, पर्सनल इनफॉरमेशन लीक चेक, पूर्वाग्रह और विषाक्तता), उत्तर की गुणवत्ता (सटीकता, उपयोगिता, स्वरूप), कार्य पथ (क्या एजेंट सही कदम उठा?), उपयोगकर्ता व्यवहार विश्लेषण (भाषा वितरण, संतुष्टि संकेत), और मल्टीमोडल (आवाज़ और चित्रण आउटपुट समीक्षा)। टेम्पलेट में पहले से ऑप्टिमाइज़्ड LLM मूल्यांकन प्रॉम्प्ट्स और नियम-आधारित कोड एवलुएटरशामिल हैं, जिनका सीधे प्रयोग किया जा सकता है या कस्टमाइज़ किया जा सकता है, और ये ऑनलाइन मॉनिटरिंग और ऑफलाइन प्रयोगों के लिए समान रूप से कारगर हैं। रीयूज़ेबल एवलुएटर संगठन स्तर पर प्रबंधन समस्याओं को हल करते हैं: "Evaluators" टैब में सभी मौजूदा प्रोजेक्ट में सभी एवलुएटरशामिल होते हैं, जिन्हें एक-क्लिक से नए प्रोजेक्ट में माउंट किया जा सकता है; प्रॉम्प्ट में किए गए अपडेट सभी प्रोजेक्ट में समग्रतः प्रभावी होते हैं, प्रत्येक प्रोजेक्ट में पुनरावृति की प्रतियाँ मैनेज करने की आवश्यकता नहीं होती। उपरोक्त सभी टेम्पलेट openevals v0.2.0 के साथ ओपन-सोर्स हो गए हैं, जिसमें मल्टीमोडल मूल्यांकन समर्थन कोशामिल किया गया है। (स्रोत: BlockBeats)