ফেবল 5 নতুন এআই এজেন্ট বেঞ্চমার্ক এএলই-এ সবচেয়ে কঠিন কাজগুলি ব্যর্থ হয়

Beating মনিটরিং-এর অনুসন্ধানে, ক্যালিফোর্নিয়া বিশ্ববিদ্যালয়, বার্কলের RDI একটি দল এবং শতাধিক শিল্প বিশেষজ্ঞদের সহযোগিতায় একটি নতুন AI এজেন্ট মূল্যায়ন বেঞ্চমার্ক, Agents' Last Exam (ALE) চালু করেছে, যা এজেন্টগুলির বাস্তব ডিজিটাল পেশাগত কাজ সম্পন্নের ক্ষমতা মূল্যায়নের জন্য ব্যবহৃত হয়। ALE 55টি ডিজিটাল পেশাগত উপ-ক্ষেত্রকে কভার করে, 1500-এরও বেশি মানব বিশেষজ্ঞদের প্রকৃত প্রকল্পগুলির থেকে সংগৃহীত যাচাইকৃত টাস্কগুলির সংগ্রহ রাখে, GUI এবং CLI ইন্টারফেসের মাধ্যমে ফলাফলের যাচাইকরণকে সমর্থন করে। প্রথম পরীক্ষাগুলি Fable 5, GPT-5.5, এবং Composer 2.5-এর মতো অগ্রণী সিস্টেমগুলিকে কভার করেছে। সর্বশেষওয়েবসাইটের তুলনামূলক ডেটা অনুযায়ী, ধারাবাহিক যুক্তি এবং 깊স্তরের专业知识যুক্ত সবচেয়ে কঠিন টাস্কগুলিতে, সমস্ত পরীক্ষিত এজেন্টগুলির সফলতা হার 0%। এই সপ্তাহেই প্রকাশিত Fable 5ও একইভাবে 0%। এটির মূল কারণটি হলো, নিরাপত্তা নীতির সক্রিয়করণ, Fable 5-এর 35%টি টাস্কই Opus 4.8-এর পুরনোভার্শনের দিকে ফিরিয়ে আনা হয়েছিল, যা এটির মোট পারফরম্যান্সকে অন্যান্যসমূহের 100%তুলনায় 100%অনেকখানি 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচিত 100%অপরিচित 100%অপরिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 100%अपरिचित 12x। এইভাবে, Fable-5-এর API-এরএকটিটাস্ক-এখনও$১৫.7০, GPT-5.5-এখনও$3.8০এবংComposer2.5-এখনও$১.33-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8-এখনও$3.8 টেস্টগুলি Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable Fable আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি আমি आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि आमि A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C L I। A L E - C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C ЛИ。A ЛЕ-C СЛІ。 The evaluation team has also released a subset called ALE–CLI for command-line agents. Compared to existing benchmarks like Terminal-Bench and SWE-bench-Pro, the ALE–CLI covers forty subdomains, with human average task completion times ranging from several hours to weeks. In the command-line evaluation, even the best-performing agent achieved a pass rate of only 25.2%. The evaluation team emphasized that while the era of usable agents has arrived, there remains a long way to go before they can truly replace humans in professional roles. (Translation complete.)