Fable 5 справляется с самыми сложными задачами в новом бенчмарке AI-агентов ALE

Согласно наблюдениям Beating, под руководством Калифорнийского университета в Беркли RDI и в сотрудничестве с сотнями отраслевых экспертов был запущен новый стандарт оценки AI-агентов — Agents' Last Exam (ALE), предназначенный для оценки способности агентов выполнять реальные цифровые профессиональные задачи. ALE охватывает 55 подобластей цифровых профессий и включает более 1500 проверенных задач, основанных на реальных проектах человеческих экспертов, с поддержкой верификации результатов в средах GUI и CLI. Первые тесты охватили передовые системы, такие как Fable 5, GPT-5.5 и Composer 2.5. Согласно последним данным на официальном сайте, при выполнении самых сложных задач, требующих непрерывных рассуждений и глубоких профессиональных знаний, все протестированные агенты показали成功率 0%. Недавно выпущенный Fable 5 также не справился ни с одной задачей. Это связано с тем, что оценка активировала политики безопасности: около 35% задач Fable 5 были откатаны и выполнены на устаревшей версии Opus 4.8, что значительно снизило его общую производительность по сравнению с другими системами. Стоимость выполнения одной задачи через API для Fable 5 составляет около 15,70 доллара США — значительно выше, чем у GPT-5.5 (3,80 доллара) и Composer 2.5 (1,33 доллара), что делает затраты в 4–12 раз выше при выполнении тех же задач. Тесты также выявили, что наиболее распространенной причиной неудачи агентов является преждевременное объявление об успехе: они завершали задачи без фактической проверки результатов, часто пропуская файлы или допуская ошибки в расчетах. Для командных строковых агентов исследовательская группа одновременно выпустила подмножество ALE-CLI. По сравнению с существующими Terminal-Bench и SWE-bench-Pro, ALE-CLI охватывает 40 подобластей, а среднее время выполнения одной задачи человеком составляет несколько часов и даже недель. В тестах командной строки наилучший агент показал процент успешного прохождения всего 25,2%. Исследовательская группа отметила, что эра удобных агентов уже наступила, но до момента, когда они смогут полноценно заменить людей на рабочих местах, еще очень далеко.