LangSmith تطلق أكثر من 30 قالب تقييم لاختبار جودة وكلاء الذكاء الاصطناعي

أخبار ME، في 17 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت LangSmith، أداة القابلية للرصد التابعة لمنصة تطوير الوكلاء الذكاء الاصطناعي LangChain، تحديثين: مكتبة قوالب المقيّمين والمقيّمين القابلة لإعادة الاستخدام. يُعد تقييم ما إذا كان الوكيل الذكي "سهل الاستخدام" أحد أكثر المراحل استهلاكًا للوقت في التطوير حاليًا. فقد يُستخدم الوكيل الأدوات الصحيحة لكنه يقدم إجابات بتنسيق خاطئ، أو يعمل بشكل طبيعي في محادثة واحدة لكنه يتعطل في المحادثات المتعددة، أو تبدو الإجابة النهائية معقولة لكن الخطوات الوسيطة استندت إلى مستندات خاطئة. يحتاج المطورون إلى تحديد نقاط تحقق على مستويات متعددة: خطوة واحدة، مسار كامل، محادثات متعددة، واستدعاء أدوات محددة، وكل مقيّم يتطلب عملية كتابة تعليمات برمجية، وضبطه مقابل بيانات حقيقية، وتحسينه مرارًا وتكرارًا — وقد تستغرق العملية من الصفر أسابيع عديدة. توفر LangSmith الآن أكثر من 30 قالبًا جاهزًا تغطي خمس فئات: الأمان والحماية (كشف حقن التعليمات البرمجية، فحص تسريب المعلومات الشخصية، التحيز والسمية)، جودة الإجابة (الدقة، الفائدة، النبرة)، مسار التنفيذ (ما إذا كان الوكيل اتبع الخطوات الصحيحة)، تحليل سلوك المستخدم (توزيع اللغة، إشارات الرضا)، والمتعدد الوسائط (مراجعة مخرجات الصوت والصورة). تحتوي القوالب على تعليمات برمجية مُحسّنة مسبقًا لتقييم نماذج اللغة الكبيرة ومقيّمين قائمين على القواعد، ويمكن استخدامها مباشرة أو تعديلها حسب الحاجة، وهي مناسبة لكل من المراقبة عبر الإنترنت والتجارب غير المتصلة. أما المقيّمون القابلون لإعادة الاستخدام فيحلون مشكلات الإدارة على مستوى المنظمات: يعرض علامة التبويب الجديدة "المقيّمون" جميع المقيّمين داخل منطقة العمل بشكل مركزي، ويمكن توصيلها بمشروع جديد بنقرة واحدة، وعند تحديث التعليمات البرمجية، تصبح التغييرات سارية عالميًا دون الحاجة إلى الحفاظ على نسخ مكررة في كل مشروع. تم نشر هذه القوالب مفتوحة المصدر مع إصدار openevals v0.2.0، والذي يضيف دعمًا لتقييم المتعدد الوسائط. (المصدر: BlockBeats)