رسالة AIMPACT، 13 مايو (UTC+8): أصدرت مؤسسة التقييم العالمية Artificial Analysis مؤشرًا جديدًا لوكيل البرمجة يُسمى Artificial Analysis Coding Agent Index، والذي يُقيّم أداء مجموعات الوكلاء والنماذج على ثلاثة معايير رائدة: SWE-Bench-Pro-Hard-AA وTerminal-Bench v2 وSWE-Atlas-QnA. في هذا التقييم، حصل النموذج المغلق Opus 4.7 (الذي يعمل على Cursor CLI) على المركز الأول عالميًا، بينما حصل GLM-5.1 (الذي يعمل على Claude Code) على المركز الأول بين النماذج المفتوحة المصدر. يغطي هذا المؤشر مهام برمجة حقيقية ومهمات واجهة سطر الأوامر الخاصة بالوكلاء وأسئلة تقنية، بهدف عكس الأداء الحقيقي للوكلاء البرمجيين في السيناريوهات العملية. وترى المقالة أن GLM-5.1 يمثل أداءً قياسيًا حاليًا (SOTA) للنماذج الكبيرة الصينية في هذا السياق. (المصدر: InFoQ)
GLM-5.1 يحتل المرتبة الأولى بين النماذج مفتوحة المصدر في معيار Artificial Analysis Coding Agent
KuCoinFlashمشاركة






أطلقت شركة التحليل على السلسلة Artificial Analysis مؤشر Coding Agent في 13 مايو (UTC+8)، حيث قيّمت النماذج على SWE-Bench-Pro-Hard-AA وTerminal-Bench v2 وSWE-Atlas-QnA. تصدر GLM-5.1 (الذي يعمل على Claude Code) النماذج مفتوحة المصدر، بينما تصدر Opus 4.7 (Cursor CLI) الترتيب العام. اختبارات المعيار تقيّم البرمجة الواقعية ومهمات الطرفية والأسئلة الفنية. يُظهر GLM-5.1 أفضل أداء بين النماذج مفتوحة المصدر، مع تزايد الاهتمام بالنماذج المحلية.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.