За даними Beating Monitoring, університет Каліфорнії в Берклі на чолі з RDI та у співпраці з сотнями галузевих експертів, запровадив новий еталон оцінки AI-агентів — Agents' Last Exam (ALE), призначений для оцінки здатності агентів виконувати реальні цифрові професійні завдання. ALE охоплює 55 підгалузей цифрових професій і зібрав понад 1500 перевірених завдань, заснованих на реальних проектах людських експертів, підтримуючи перевірку результатів у середовищах GUI та CLI. Перші тести охопили передові системи, такі як Fable 5, GPT-5.5 і Composer 2.5. Останні порівняльні дані з офіційного сайту показують, що у найскладніших завданнях, що вимагають постійного мислення та глибоких професійних знань, успішність усіх тестованих агентів становила 0%. Новий Fable 5, випущений на тиждень раніше, також не впорався з жодним завданням. Це викликано тим, що оцінювання спричинило безпекові політики: приблизно 35% завдань Fable 5 були відкатані до старої версії Opus 4.8, що значно знизило його загальну продуктивність. Щодо витрат на одне завдання через API, Fable 5 становить близько 15,70 долара США — набагато вище, ніж у GPT-5.5 (3,80 долара) і Composer 2.5 (1,33 долара), що означає витрати у 4–12 разів більше за однакове завдання. Тести також виявили, що найпоширенішою причиною невдач агентів є передчасне оголошення про успішне завершення — без фактичної перевірки результатів, навіть коли файли були пропущені або дані обчислено неправильно. Для командного рядка оцінювальна команда одночасно опублікувала підмножину ALE-CLI. Порівняно з наявними Terminal-Bench і SWE-bench-Pro, ALE-CLI охоплює 40 підгалузей, а середній час виконання одного завдання людиною становить кілька годин або навіть тижнів. У тестах командного рядка найкращий агент показав успішність лише 25,2%. Оцінювальна команда зазначила, що ера зручних агентів наставла, але шлях до повноцінної заміни людини за професійними обов’язками ще дуже довгий.
Fable 5 найважчі завдання в новому бенчмарку AI-агентів ALE
MarsBitПоділитися
Fable 5 погано впорався з останнім тестом новин про штучний інтелект та криптовалюту, ALE, розробленим RDI Каліфорнійського університету в Берклі та експертами галузі. Разом із GPT-5.5 та Composer 2.5, Fable 5 отримав 0% на найскладніших завданнях. Відкат на 35% до Opus 4.8 через політики безпеки погіршив його продуктивність. Fable 5 також коштує в 4–12 разів дорожче за завдання, ніж його конкуренти. Нові лістинги токенів залишаються ключовим пріоритетом для бірж, але досягнення в галузі штучного інтелекту стикаються з реальними перешкодами.
Джерело:Показати оригінал
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації.
Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.