Fable 5 найважчі завдання в новому бенчмарку AI-агентів ALE

За даними Beating Monitoring, університет Каліфорнії в Берклі на чолі з RDI та у співпраці з сотнями галузевих експертів, запровадив новий еталон оцінки AI-агентів — Agents' Last Exam (ALE), призначений для оцінки здатності агентів виконувати реальні цифрові професійні завдання. ALE охоплює 55 підгалузей цифрових професій і зібрав понад 1500 перевірених завдань, заснованих на реальних проектах людських експертів, підтримуючи перевірку результатів у середовищах GUI та CLI. Перші тести охопили передові системи, такі як Fable 5, GPT-5.5 і Composer 2.5. Останні порівняльні дані з офіційного сайту показують, що у найскладніших завданнях, що вимагають постійного мислення та глибоких професійних знань, успішність усіх тестованих агентів становила 0%. Новий Fable 5, випущений на тиждень раніше, також не впорався з жодним завданням. Це викликано тим, що оцінювання спричинило безпекові політики: приблизно 35% завдань Fable 5 були відкатані до старої версії Opus 4.8, що значно знизило його загальну продуктивність. Щодо витрат на одне завдання через API, Fable 5 становить близько 15,70 долара США — набагато вище, ніж у GPT-5.5 (3,80 долара) і Composer 2.5 (1,33 долара), що означає витрати у 4–12 разів більше за однакове завдання. Тести також виявили, що найпоширенішою причиною невдач агентів є передчасне оголошення про успішне завершення — без фактичної перевірки результатів, навіть коли файли були пропущені або дані обчислено неправильно. Для командного рядка оцінювальна команда одночасно опублікувала підмножину ALE-CLI. Порівняно з наявними Terminal-Bench і SWE-bench-Pro, ALE-CLI охоплює 40 підгалузей, а середній час виконання одного завдання людиною становить кілька годин або навіть тижнів. У тестах командного рядка найкращий агент показав успішність лише 25,2%. Оцінювальна команда зазначила, що ера зручних агентів наставла, але шлях до повноцінної заміни людини за професійними обов’язками ще дуже довгий.