LangSmith تطلق أكثر من 30 قالب تقييم لاختبار جودة وكلاء الذكاء الاصطناعي

iconKuCoinFlash
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
انكسرت أخبار الذكاء الاصطناعي والعملات المشفرة في 17 أبريل (UTC+8) مع إطلاق LangChain لـ LangSmith أكثر من 30 قالب تقييم لاختبار وكلاء الذكاء الاصطناعي. يشمل التحديث مكتبة قوالب المقيّم والمقيّمين القابلين لإعادة الاستخدام عبر خمس فئات: السلامة، جودة الاستجابة، مسار التنفيذ، تحليل سلوك المستخدم، والمتعددة الوسائط. تدعم هذه القوالب المراقبة عبر الإنترنت والتجارب غير المتصلة، مع تحسين محفزات نماذج اللغة الكبيرة والكود القائم على القواعد. يسمح علامة التبويب الجديدة "المقيّمون" بالإدارة المركزية. تم فتح مصادر القوالب مع openevals v0.2.0، مع إضافة دعم متعدد الوسائط. تستمر قوائم الرموز الجديدة وأدوات الذكاء الاصطناعي في تشكيل السوق.

أخبار ME، في 17 أبريل (UTC+8)، وفقًا لمراقبة Beating، أطلقت LangSmith، أداة القابلية للرصد التابعة لمنصة تطوير الوكلاء الذكاء الاصطناعي LangChain، تحديثين: مكتبة قوالب المقيّمين والمقيّمين القابلة لإعادة الاستخدام. يُعد تقييم ما إذا كان الوكيل الذكي "سهل الاستخدام" أحد أكثر المراحل استهلاكًا للوقت في التطوير حاليًا. فقد يُستخدم الوكيل الأدوات الصحيحة لكنه يقدم إجابات بتنسيق خاطئ، أو يعمل بشكل طبيعي في محادثة واحدة لكنه يتعطل في المحادثات المتعددة، أو تبدو الإجابة النهائية معقولة لكن الخطوات الوسيطة استندت إلى مستندات خاطئة. يحتاج المطورون إلى تحديد نقاط تحقق على مستويات متعددة: خطوة واحدة، مسار كامل، محادثات متعددة، واستدعاء أدوات محددة، وكل مقيّم يتطلب عملية كتابة تعليمات برمجية، وضبطه مقابل بيانات حقيقية، وتحسينه مرارًا وتكرارًا — وقد تستغرق العملية من الصفر أسابيع عديدة. توفر LangSmith الآن أكثر من 30 قالبًا جاهزًا تغطي خمس فئات: الأمان والحماية (كشف حقن التعليمات البرمجية، فحص تسريب المعلومات الشخصية، التحيز والسمية)، جودة الإجابة (الدقة، الفائدة، النبرة)، مسار التنفيذ (ما إذا كان الوكيل اتبع الخطوات الصحيحة)، تحليل سلوك المستخدم (توزيع اللغة، إشارات الرضا)، والمتعدد الوسائط (مراجعة مخرجات الصوت والصورة). تحتوي القوالب على تعليمات برمجية مُحسّنة مسبقًا لتقييم نماذج اللغة الكبيرة ومقيّمين قائمين على القواعد، ويمكن استخدامها مباشرة أو تعديلها حسب الحاجة، وهي مناسبة لكل من المراقبة عبر الإنترنت والتجارب غير المتصلة. أما المقيّمون القابلون لإعادة الاستخدام فيحلون مشكلات الإدارة على مستوى المنظمات: يعرض علامة التبويب الجديدة "المقيّمون" جميع المقيّمين داخل منطقة العمل بشكل مركزي، ويمكن توصيلها بمشروع جديد بنقرة واحدة، وعند تحديث التعليمات البرمجية، تصبح التغييرات سارية عالميًا دون الحاجة إلى الحفاظ على نسخ مكررة في كل مشروع. تم نشر هذه القوالب مفتوحة المصدر مع إصدار openevals v0.2.0، والذي يضيف دعمًا لتقييم المتعدد الوسائط. (المصدر: BlockBeats)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.