LangSmith ने AI एजेंट क्वालिटी टेस्टिंग के लिए 30+ ईवैलुएशन टेम्पलेट्स लॉन्च किए

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
AI + क्रिप्टो समाचार 17 अप्रैल (UTC+8) को टूटा, जब LangChain का LangSmith AI एजेंट परीक्षण के लिए 30+ मूल्यांकन टेम्पलेट्स लॉन्च किया। इस अपडेट में सुरक्षा, प्रतिक्रिया गुणवत्ता, निष्पादन ट्रैजेक्टरी, उपयोगकर्ता व्यवहार विश्लेषण और मल्टीमोडल जैसे पांच श्रेणियों के लिए एक मूल्यांकन टेम्पलेट लाइब्रेरी और पुनः उपयोगयोग्य मूल्यांकनकर्ता शामिल हैं। ये टेम्पलेट्स ऑनलाइन मॉनिटरिंग और ऑफलाइन प्रयोगों का समर्थन करते हैं, जिनमें अनुकूलित LLM प्रॉम्प्ट्स और नियम-आधारित कोड शामिल हैं। नया "Evaluators" टैब केंद्रीय प्रबंधन की सुविधा प्रदान करता है। टेम्पलेट्स openevals v0.2.0 के साथ ओपन-सोर्स किए गए हैं, जिसमें मल्टीमोडल समर्थन जोड़ा गया है। नए टोकन सूचीकरण और AI उपकरण बाजार को आकार देते रहते हैं।

ME News के अनुसार, 17 अप्रैल (UTC+8) को, डोंगचा बीटिंग के अनुसार, AI एजेंट डेवलपमेंट प्लेटफॉर्म LangChain के ओब्जर्वेबिलिटी टूल LangSmith ने दो अपडेट जारी किए हैं: एवलुएटर टेम्पलेट लाइब्रेरी और रीयूज़ेबल एवलुएटर। AI एजेंट की "उपयोगिता" का मूल्यांकन वर्तमान में डेवलपमेंट का सबसे समय-लेने वाला पहलू है। एजेंट सही टूल्स को कॉल कर सकता है, लेकिन उत्तर का फॉर्मेट गलत हो सकता है, एकल-राउंड डायलॉग सही हो सकता है, लेकिन मल्टी-राउंड में क्रैश हो सकता है, या अंतिम उत्तर तो तर्कसंगत लग सकता है, लेकिन मध्यवर्ती चरणों में गलत दस्तावेज़ प्राप्त किए जा सकते हैं। डेवलपर्स को एकल-स्टेप, पूर्ण ट्रैजेक्टरी, मल्टी-राउंड डायलॉग, और विशिष्ट टूल कॉल जैसे कई स्तरों पर चेकपॉइंट्स सेट करने की आवश्यकता होती है, और प्रत्येक एवलुएटर के लिए प्रॉम्प्ट लिखने, वास्तविक डेटा के साथ कैलिब्रेट करने, और बार-बार ऑप्टिमाइज़ करने की प्रक्रिया होती है—शून्य से शुरू करने पर अक्सर कई सप्ताह लगते हैं। अब LangSmith 30 से अधिक पहले से तैयार टेम्पलेट प्रदान करता है, जो पाँच श्रेणियों को कवर करते हैं: सुरक्षा और सुरक्षा (प्रॉम्प्ट इंजेक्शन डिटेक्शन, पर्सनल इनफॉरमेशन लीक चेक, पूर्वाग्रह और विषाक्तता), उत्तर की गुणवत्ता (सटीकता, उपयोगिता, स्वरूप), कार्य पथ (क्या एजेंट सही कदम उठा?), उपयोगकर्ता व्यवहार विश्लेषण (भाषा वितरण, संतुष्टि संकेत), और मल्टीमोडल (आवाज़ और चित्रण आउटपुट समीक्षा)। टेम्पलेट में पहले से ऑप्टिमाइज़्ड LLM मूल्यांकन प्रॉम्प्ट्स और नियम-आधारित कोड एवलुएटरशामिल हैं, जिनका सीधे प्रयोग किया जा सकता है या कस्टमाइज़ किया जा सकता है, और ये ऑनलाइन मॉनिटरिंग और ऑफलाइन प्रयोगों के लिए समान रूप से कारगर हैं। रीयूज़ेबल एवलुएटर संगठन स्तर पर प्रबंधन समस्याओं को हल करते हैं: "Evaluators" टैब में सभी मौजूदा प्रोजेक्ट में सभी एवलुएटरशामिल होते हैं, जिन्हें एक-क्लिक से नए प्रोजेक्ट में माउंट किया जा सकता है; प्रॉम्प्ट में किए गए अपडेट सभी प्रोजेक्ट में समग्रतः प्रभावी होते हैं, प्रत्येक प्रोजेक्ट में पुनरावृति की प्रतियाँ मैनेज करने की आवश्यकता नहीं होती। उपरोक्त सभी टेम्पलेट openevals v0.2.0 के साथ ओपन-सोर्स हो गए हैं, जिसमें मल्टीमोडल मूल्यांकन समर्थन कोशामिल किया गया है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।