مقياس وكيل OpenClaw AI: أفضل 10 نماذج مصنفة حسب معدل النجاح

icon MarsBit
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
انكسرت أخبار الذكاء الاصطناعي والعملات المشفرة مع نشر MyToken معيارًا لوكيل OpenClaw الذكي، وصنّفت أبرز النماذج حسب معدل النجاح. يشمل الاختبار 23 مهمة تغطي تنفيذ التعليمات البرمجية وإنشاء المحتوى وأدوات النظام. تصدر Claude Opus 4.6 من Anthropic بـ 93.3% من أعلى معدل نجاح، يليه Trinity من Arcee AI بـ 91.9%. كما حصلت عدة إصدارات من Qwen على مكان ضمن أفضل 10. المعيار مفتوح المصدر وقابل للتكرار، ويستخدم بيانات من اختبارات وكيل OpenClaw من PinchBench. وتستمر أخبار السلسلة في تسليط الضوء على التقدمات في الذكاء الاصطناعي ضمن مجال العملات المشفرة.

من يرغب في معرفة أي نموذج كبير هو الأقوى في مهام الوكيل الواقعي لـ OpenClaw؟

قامت MyToken بتطوير معيار شفاف مخصص لتقييم القدرات العملية لوكالات البرمجة بالذكاء الاصطناعي، استنادًا إلى تقييمات مواقع التقييم، مع التركيز فقط على بعد واحد أساسي: معدل النجاح (السرعة والتكلفة هما بعدان مستقلان سيتم تحليلهما لاحقًا بشكل منفصل). المعيار مفتوح بالكامل وقابل للتكرار، ويعرض فقط معايير التقييم الدقيقة + قائمة أفضل 10 تطبيقات حسب معدل النجاح الأحدث.

أولاً: معيار التقييم: معدل النجاح

المعيار المحدد: النسبة المئوية للمهام التي أكملها الوكيل الذكي بشكل كامل ودقيق. كل مهمة تتبع عملية موحدة للغاية:

  • تعليمات المستخدم الدقيقة

إرسال إلى الوكيل بالكامل لمحاكاة سيناريو طلب المستخدم الحقيقي

  • السلوك المتوقع

تشمل جميع التفاصيل الطرق المقبولة للتنفيذ ونقاط القرار الرئيسية

  • معايير التقييم (قائمة المراجعة)

قم بإدراج قائمة مُحدَّدة بعناصر فردية يمكن التحقق منها لتحديد النجاح

ثانيًا: ثلاث طرق تقييم

يتم اعتماد ثلاث طرق تقييم رئيسية في هذه المراجعة

  • التحقق التلقائي: يقوم سكريبت Python بالتحقق المباشر من محتوى الملفات، وسجلات التنفيذ، واستدعاءات الأدوات، وغيرها من النتائج الموضوعية

  • محكم نموذج LLM الكبير: Claude Opus يُعطي درجات وفق مقياس تفصيلي (جودة المحتوى، المناسبة، الشمولية، إلخ)

  • الوضع المختلط: دمج الفحص الذاتي الآلي وتقييم الجودة من قبل نموذج LLM

جميع تعريفات المهام والـ Prompt ومنطق التقييم مفتوحة للتحقق والاختبار مرة أخرى.

ثالثًا: المهام المستخدمة للتقييم

يغطي هذا الاختبار المرجعي 23 فئة مختلفة من المهام. يشمل التفاعل الأساسي، وعمليات الملفات/الكود، وإنشاء المحتوى، والتحليل البحثي، واستدعاء أدوات النظام، وتخزين الذاكرة على المدى الطويل، وغيرها من الجوانب، مع محاكاة وثيقة لسيناريوهات الاستخدام اليومية للمطورين لـ OpenClaw:

  1. فحص الصواب (أتمتة) — معالجة الأوامر البسيطة والرد بشكل صحيح على التحية

  2. إنشاء حدث في التقويم (أتمتة) — توليد نصي طبيعي لملف تقويم ICS

  3. بحث أسعار الأسهم (أتمتة) — استعلام فوري عن أسعار الأسهم وإصدار تقرير مُنسق

  4. كتابة مقال مدونة (حاكم LLM) — اكتب مقالًا مُنسقًا بتنسيق Markdown بطول حوالي 500 كلمة

  5. إنشاء نص الطقس (أتمتة) — كتابة نص Python لواجهة برمجة تطبيقات الطقس مع معالجة الأخطاء

  6. تلخيص المستندات (محكم LLM) — ملخص مكثف على ثلاثة أجزاء للموضوع الأساسي

  7. بحث مؤتمر التكنولوجيا (حاكم LLM) — جمع وتنظيم معلومات 5 مؤتمرات تكنولوجية حقيقية (الاسم، التاريخ، المكان، الرابط)

  8. صياغة بريد إلكتروني احترافي (حاكم LLM) — رفض لطيف للاجتماع واقتراح بديل

  9. استرجاع الذاكرة من السياق (تلقائي) — استخراج دقيق للتاريخ، والأعضاء، وتقنيات المشروع من ملاحظات المشروع

  10. إنشاء هيكل الملفات (تلقائي) — إنشاء تلقائي لدليل المشروع القياسي وملف README و.gitignore

  11. سلسلة عمل واجهة برمجة التطبيقات متعددة الخطوات (مختلطة) — قراءة التكوين → كتابة نص المكالمة → توثيق كامل

  12. تثبيت مهارة ClawdHub (الأتمتة) — تثبيت من مستودع المهارات والتحقق من الجاهزية

  13. البحث وتثبيت المهارة (الأتمتة) — ابحث عن مهارات الطقس وثبّتها بشكل صحيح

  14. إنشاء صور بالذكاء الاصطناعي (مختلط) — أنشئ واحفظ الصور وفقًا للوصف

  15. إنسانية المحتوى المُنشأ بواسطة الذكاء الاصطناعي (حكم LLM) — حوّل المحتوى ذو الطابع الآلي إلى لغة طبيعية ومحادثة

  16. ملخص البحث اليومي (محكم LLM) – دمج عدة مستندات في ملخص يومي متماسك

  17. فرز صندوق البريد الإلكتروني (مختلط) — تحليل عدة رسائل وتنظيم تقرير حسب مستوى الطوارئ

  18. بحث وتلخيص البريد الإلكتروني (مختلط) — ابحث عن رسائل البريد الإلكتروني المخزنة واستخلص المعلومات الأساسية

  19. بحث تنافسي في السوق (مختلط) — تحليل المنافسين في مجال APM للشركات

  20. تلخيص CSV وExcel (مختلط) — تحليل ملفات الجداول وإخراج الرؤى

  21. تلخيص PDF بأسلوب ELI5 (اشرحه لي كأنني طفل في الخامسة) — باستخدام LLM كحكم

  22. فهم تقرير OpenClaw (أتمتة) — الإجابة بدقة على أسئلة محددة من تقارير بحثية بصيغة PDF

  23. استمرارية معرفة Second Brain (مختلطة) — تخزين واسترجاع دقيق للمعلومات عبر الجلسات

رابعًا: الاستنتاجات الأساسية: ترتيب أكبر 10 نماذج من حيث أعلى نسبة نجاح (أفضل % / متوسط %)

  • تم تحديث البيانات حتى 7 أبريل 2026

  • أفضل % هي أعلى نسبة نجاح في مرة واحدة، ومتوسط % هو متوسط نسبة النجاح على مدى عدة مرات، وهو ما يعكس الاستقرار بشكل أفضل

هذه هي أفضل عشر نماذج من حيث نسبة النجاح

  1. anthropic/claude-opus-4.6 (Anthropic) —— 93.3% / 82.0%

  2. arcee-ai/trinity-large-thinking (Arcee AI) — 91.9% / 91.9%

  3. openai/gpt-5.4 (OpenAI) —— 90.5% / 81.7%

  4. qwen/qwen3.5-27b (Qwen) —— 90.0% / 78.5%

  5. minimax/minimax-m2.7 (MiniMax) — 89.8% / 83.2%

  6. anthropic/claude-haiku-4.5 (Anthropic) —— 89.5% / 78.1%

  7. qwen/qwen3.5-397b-a17b (Qwen) —— 89.1% / 80.4%

  8. xiaomi/mimo-v2-flash (Xiaomi) —— 88.8% / 70.2%

  9. qwen/qwen3.6-plus-preview (Qwen) — 88.6% / 84.0%

  10. nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88.6% / 75.5%

OpenClaw

يتصدر Claude Opus 4.6 بمستوى نجاح أعلى بلغ 93.3٪، لكن Trinity من Arcee أظهرت أداءً ملحوظًا في الاستقرار المتوسط، كما دخلت عدة نماذج من سلسلة Qwen قائمة العشرة الأوائل، مما يُظهر إمكانات كبيرة من حيث القيمة مقابل التكلفة. إن نسبة النجاح هي الحد الأدنى الأساسي، وستؤثر بعد ذلك عوامل السرعة والتكلفة على التجربة العملية بشكل أكبر.

هذه المهمات الـ23 معيارًا شفافًا تمامًا، ونوصي بشدة الجميع باختباره وفقًا لسياقاتهم الفعلية. لمزيد من ترتيبات النماذج الأخرى، يرجى الانتظار لميزة ترتيب الوكلاء التي ستطلقها MyToken قريبًا.

(البيانات مأخوذة من اختبارات وكيل OpenClaw التي نشرتها PinchBench، وتحديث مستمر.)

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.