فابل 5 تفشل في أكثر المهام صعوبة في معيار الوكلاء الجدد ALE

icon MarsBit
مشاركة
AI summary iconملخص

وفقًا لمراقبة Beating، أطلقت جامعة كاليفورنيا، بيركلي، بالشراكة مع مئات الخبراء الصناعيين، معيار تقييم جديد للوكلاء الذكاء الاصطناعي يُسمى Agents' Last Exam (ALE) لقياس قدرة الوكلاء على إنجاز مهام مهنية رقمية حقيقية. يغطي ALE 55 مجالًا فرعيًا رقميًا، وجمع أكثر من 1500 مهمة مُوثقة من مشاريع فعلية قام بها خبراء بشريون، ويدعم التحقق من النتائج في بيئة واجهة المستخدم الرسومية (GUI) وواجهة سطر الأوامر (CLI). شملت الاختبارات الأولية أنظمة متقدمة مثل Fable 5 وGPT-5.5 وComposer 2.5. وفقًا لأحدث المقارنات على الموقع الرسمي، فإن جميع الوكلاء الخاضعين للاختبار حققوا نسبة نجاح 0% في المهام الأصعب التي تتطلب استدلالًا مستمرًا وخبرة عميقة، حيث قدم Fable 5، الذي تم إصداره هذا الأسبوع، إجابة فارغة أيضًا. يعود السبب الرئيسي إلى أن التقييم أطلق سياسات الأمان، حيث تم إعادة توجيه حوالي 35% من مهام Fable 5 للعمل على الإصدار القديم Opus 4.8، مما أدى إلى أداء ضعيف مقارنة بالأنظمة الأخرى في القوائم. من حيث تكلفة واجهة برمجة التطبيقات لكل مهمة، تبلغ تكلفة Fable 5 حوالي 15.70 دولارًا أمريكيًا، وهي أعلى بكثير من 3.80 دولارًا لـ GPT-5.5 و1.33 دولارًا لـ Composer 2.5، أي أن التكاليف أعلى بأربع إلى اثني عشر مرة لنفس المهمة. كشف التقييم أيضًا أن السبب الأكثر شيوعًا لفشل الوكلاء هو الإعلان المبكر عن النجاح دون التحقق الفعلي من النتائج، بل وحتى تجاهل ملفات أو حساب بيانات خاطئة. بالتزامن مع ذلك، أصدر فريق التقييم مجموعة فرعية تُسمى ALE-CLI للوكلاء الذين يعملون عبر سطر الأوامر. مقارنةً بـ Terminal-Bench وSWE-bench-Pro الموجودين مسبقًا، يغطي ALE-CLI 40 مجالًا فرعيًا، ويستغرق متوسط الوقت البشري لإكمال مهمة واحدة ساعات أو حتى أسابيع. في اختبارات سطر الأوامر، لم تتجاوز نسبة النجاح لأفضل وكلاء ذكاء اصطناعي 25.2%. وأشار فريق التقييم إلى أن عصر الوكلاء القابلة للاستخدام قد بدأ بالفعل، لكن لا يزال هناك طريق طويل قبل أن تتمكن من الاستبدال الفعلي للبشر في أماكن العمل.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.