هواوي تطلق معيار Claw-Anything لاختبار وكلاء الذكاء الاصطناعي في مهام المساعد الشخصي

إليك رقم مُخجِل لدورة الترويج للذكاء الاصطناعي: حصل GPT-5.5، أحد أكثر نماذج اللغة تقدمًا على وجه الأرض، على 34.5% فقط عندما طُلب منه العمل كمساعد شخصي دائم في بيئة رقمية واقعية. وحقق Claude Opus 4.7 نتيجة أسوأ عند 31.8%.

تستند هذه النتائج إلى Claw-Anything، وهو معيار جديد نُشر من قبل باحثي هواوي بالتعاون مع معهد بكين للتكنولوجيا وجامعة بكين. لا يختبر البحث، الذي نُشر في 25 مايو 2026، ما إذا كان الذكاء الاصطناعي قادرًا على الإجابة عن الأسئلة فحسب، بل يختبر ما إذا كان الذكاء الاصطناعي قادرًا حقًا على إدارة حياتك الرقمية.

ما الذي يقيسه Claw-Anything فعليًا

يُحاكي المعيار حياة رقمية كاملة، ثم يطلب من مساعدي الذكاء الاصطناعي إدارة هذه الحياة عبر تدفقات أحداث طويلة المدى وخدمات خلفية متعددة ومترابطة. بدلاً من طلب من الذكاء الاصطناعي تلخيص بريد إلكتروني، فأنت تطلب منه مراقبة صندوق البريد الخاص بك، والتقويم، وتطبيقات الرسائل، وأنظمة الملفات في آنٍ واحد، ثم اتخاذ الإجراءات المناسبة دون أن يُطلب منه ذلك.

التعقيد كبير. تتضمن المهام متوسط 10.1 خدمات مترابطة، مع وصول بعض السيناريوهات إلى 18. يشمل المعيار 200 بيئة مهمة مُحققة من قبل البشر، بمتوسط 191.7 ألف كلمة سياقية لكل بيئة.

يُقيّم المعيار تفاعلات واجهة المستخدم الرسومية وواجهة سطر الأوامر عبر أجهزة متعددة. كما يختبر السلوك الاستباقي: هل يمكن للذكاء الاصطناعي ملاحظة الحاجة إلى فعل شيء قبل أن تسأل؟

توفر عملية التدريب لمعة من الأمل

قام فريق البحث ببناء أنبوب تلقائي أنشأ 2,000 بيئة تدريب لضبط نماذج الذكاء الاصطناعي على مهام المساعدات المعقدة هذه. أظهر نموذج Qwen3.5-27B، وهو نموذج مفتوح المصدر أصغر، تحسنًا في الأداء بنسبة 23.7% بعد ضبطه على مسارات المهام الناجحة من هذه البيئات.

تُظهر ClawBench و WildClawBench، اللتان تختبران مهام عملية متعددة الخطوات المماثلة ضمن نظام OpenClaw الأوسع، أن أفضل نماذج الذكاء الاصطناعي تحصل على درجات تتراوح بين 33% و62%.

لماذا يجب على مستثمري العملات المشفرة الانتباه

معدل النجاح البالغ 34.5% لـ GPT-5.5 ملحوظ بشكل خاص لأن العديد من مشاريع الذكاء الاصطناعي في مجال التشفير مبنية على نماذج OpenAI. تشير نتائج الدقة الدقيقة مع Qwen3.5-27B إلى أن التدريب المتخصص على مسارات ناجحة محددة بالمجال يمكن أن يحسن الأداء بشكل ذي معنى. وهذا يعني أن مشاريع الذكاء الاصطناعي في مجال التشفير الأكثر احتمالاً لتوفير قيمة حقيقية هي على الأرجح تلك التي تستثمر بقوة في جمع بيانات تدريب عالية الجودة من تفاعلات فعلية على السلسلة.

مشاركة هواوي في تقييم الذكاء الاصطناعي المفتوح المصدر، جنبًا إلى جنب مع الإطار العام OpenClaw، تشير إلى أن السباق لبناء مساعدين ذكيين موثوقين يصبح عالميًا بشكل متزايد. يختبر هذا التقييم تحديدًا نوع التنسيق المعقد متعدد الخطوات ومتعدد الخدمات الذي سيحتاجه وكلاء الذكاء الاصطناعي في التشفير لأدائه بموثوقية: إدارة محافظ DeFi عبر بروتوكولات متعددة، ومراقبة مقترحات الحوكمة، وإعادة التوازن بناءً على ظروف السوق، وربط الأصول بين السلاسل.