Согласно наблюдениям Beating, под руководством Калифорнийского университета в Беркли RDI и в сотрудничестве с сотнями отраслевых экспертов был запущен новый стандарт оценки AI-агентов — Agents' Last Exam (ALE), предназначенный для оценки способности агентов выполнять реальные цифровые профессиональные задачи. ALE охватывает 55 подобластей цифровых профессий и включает более 1500 проверенных задач, основанных на реальных проектах человеческих экспертов, с поддержкой верификации результатов в средах GUI и CLI. Первые тесты охватили передовые системы, такие как Fable 5, GPT-5.5 и Composer 2.5. Согласно последним данным на официальном сайте, при выполнении самых сложных задач, требующих непрерывных рассуждений и глубоких профессиональных знаний, все протестированные агенты показали成功率 0%. Недавно выпущенный Fable 5 также не справился ни с одной задачей. Это связано с тем, что оценка активировала политики безопасности: около 35% задач Fable 5 были откатаны и выполнены на устаревшей версии Opus 4.8, что значительно снизило его общую производительность по сравнению с другими системами. Стоимость выполнения одной задачи через API для Fable 5 составляет около 15,70 доллара США — значительно выше, чем у GPT-5.5 (3,80 доллара) и Composer 2.5 (1,33 доллара), что делает затраты в 4–12 раз выше при выполнении тех же задач. Тесты также выявили, что наиболее распространенной причиной неудачи агентов является преждевременное объявление об успехе: они завершали задачи без фактической проверки результатов, часто пропуская файлы или допуская ошибки в расчетах. Для командных строковых агентов исследовательская группа одновременно выпустила подмножество ALE-CLI. По сравнению с существующими Terminal-Bench и SWE-bench-Pro, ALE-CLI охватывает 40 подобластей, а среднее время выполнения одной задачи человеком составляет несколько часов и даже недель. В тестах командной строки наилучший агент показал процент успешного прохождения всего 25,2%. Исследовательская группа отметила, что эра удобных агентов уже наступила, но до момента, когда они смогут полноценно заменить людей на рабочих местах, еще очень далеко.
Fable 5 справляется с самыми сложными задачами в новом бенчмарке AI-агентов ALE
MarsBitПоделиться
Fable 5 показал слабые результаты в последнем бенчмарке новостей об ИИ и криптовалюте, ALE, разработанном RDI Калифорнийского университета в Беркли и экспертами отрасли. Вместе с GPT-5.5 и Composer 2.5 Fable 5 набрал 0% по самым сложным задачам. Откат на 35% до Opus 4.8 из-за политик безопасности негативно сказался на его производительности. Fable 5 также стоит в 4–12 раз дороже за задачу по сравнению с его конкурентами. Новые листинги токенов остаются ключевым приоритетом для бирж, но достижения в области ИИ сталкиваются с реальными трудностями.
Источник:Показать оригинал
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации.
Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.