Новий еталонний тест AI-агентів ALE виявив значні розбіжності в продуктивності при вирішенні реальних завдань

Каліфорнійський університет у Берклі очолив дослідницьку команду з понад 250 експертів галузі, яка розробила оціночний стандарт для AI-агентів під назвою Agents' Last Exam (ALE). Цей стандарт містить 1490 реальних професійних завдань, що охоплюють виробництво, право, медицину, візуальні медіа та інші сфери, і призначений для вимірювання продуктивності ШІ у довгострокових, економічно цінних робочих процесах. Результати дослідження показали, що сучасні основні моделі, хоча й отримують високі бали на традиційних тестах, досягають лише 2,6% середньої повної прохідності на найскладнішому рівні ALE, а найкраща конфігурація — лише 8,6%. Дослідники зазначили, що основним обмеженням сучасних систем є відсутність галузевих знань, а не здатність до виконання — вибір моделі впливає на результат приблизно втричі сильніше, ніж вибір архітектури агента. ALE — це динамічний стандарт, який у майбутньому буде розширюватися на нові робочі процеси та галузі.

Автор статті, джерело: 36Kr

Дослідницька група, яку очолює Каліфорнійський університет у Берклі, у співпраці з понад 250 експертами галузі, запропонувала новий тестовий стандарт ALE для AI-агентів, щоб вирішити проблему неможливості постійного вимірювання продуктивності ШІ у реальних, довготривалих та економічно цінних завданнях.

Посилання на статтю: https://arxiv.org/abs/2606.05405

Що буде на останньому іспиті?

Agents' Last Exam (ALE) — це оціночний стандарт для AI-агентів, розроблений більше ніж 250 експертами галузі, який вимірює продуктивність штучного інтелекту у довгострокових, економічно цінних реальних робочих процесах.

Щоб перевірити, чи може ШІ виконувати реальні завдання на комп’ютері так само, як людина, дослідницька команда зібрала 1490 завдань, що охоплюють такі галузі, як виробництво, право, медицина та візуальні медіа. Ці завдання походять з щоденних обов’язків реальних фахівців: деякі вимагали від ШІ створити 3D-модель, інші — виконати хромакеїнг та композитинг відео в DaVinci.

Рис. | Розподіл 1490 екземплярів завдань у класифікаційній системі ALE

У порівнянні зі звичайними запитаннями-відповідями або короткими тестовими завданнями, такі завдання вимагають від агента більш високого рівня. Дослідницька команда називає такі агенти Generalist Computer-Use Agent (GCUA): вони повинні не лише керувати інтерфейсом, а й виконувати команди в командному рядку, обробляти файли, писати код та викликати інструменти, щоб завершити цілий робочий процес.

Рис. | Типова структура фреймворку GCUA.

Щоб перевірити справжні здібності цих об’єктів, ALE надає повний набір середовищ для виконання та оцінки завдань. Під час виконання сценарії завдань відповідають за завантаження завдань, підготовку середовища та остаточну оцінку, а агенти самостійно спостерігають за середовищем, вибирають дії та безперервно їх виконують згідно з описом завдання. Після завершення завдання сценарій безпосередньо перевіряє результати: 93,2% завдань можуть бути автоматично оцінені без участі людини.

Рис. | Процес створення завдання.

Як результати іспиту?

Дослідницька команда зазначила, що якщо розглядати лише найскладніші завдання, то поточна найкраща конфігурація — Codex + GPT-5.5, але повний коефіцієнт успішності становить лише 8,6%; середній повний коефіцієнт успішності для основних систем, наведений дослідницькою командою, становить 2,6%.

Дослідницька команда навела кілька конкретних прикладів невдач. У завданні з перетворення музики на ноти потрібно було надіслати PDF-файл повного нотного запису, MIDI-файл та знімки інтерфейсу, але ШІ експортував лише MIDI-файл і отримав 0 балів. У завданні з імітацією ливарного формування ШІ виконав імітацію у Moldex3D та експортував результати, але не зміг стабільно витягнути ключові значення, отримавши 0,4762 бала. У завданні з синтезом на зеленому тлі ШІ експортував відео, але результат не відповідав вимогам еталону, тому також отримав 0 балів.

Рис. | Основні результати ALE.

Рис. | Огляд експериментального аналізу.

Дослідницька команда класифікувала причини невдач. Наприклад, для Claude Code + Opus 4.7: 31% відносяться до проблем з розумінням, 47% — до проблем з методами, 22% — до проблем з виконанням; разом проблеми з розумінням і методами становлять приблизно вісім десятих. Дослідники зробили висновок, що основним обмеженням сучасних систем є відсутність галузевих знань, а не здатність до виконання.

Дослідницька команда також порівняла вплив моделей та фреймворків агентів. Результати показали, що різниця в результаті від зміни моделі значно більша, ніж від зміни фреймворку агента. При фіксованому фреймворку агента та зміні лише моделі різниця між найвищим і найнижчим загальним показником проходження становила 18 відсоткових пунктів; при фіксованій моделі та зміні лише фреймворку агента ця різниця становила приблизно 5–6 відсоткових пунктів. Вплив вибору моделі приблизно утричі перевищує вплив фреймворку агента.

Недоліки та майбутні напрямки

Дослідницька команда також зазначила, що ALE базується на класифікації професій SOC 2018 і охоплює переважно програмні та цифрові професійні завдання. На даний момент завдання виконуються переважно у віртуальних машинах Linux або Windows.

Крім того, охоплення ALE в різних галузях також нерівномірне: деякі напрямки мають багато завдань, а інші — дуже мало. Наприклад, у сфері енергетики та ядерної інженерії лише 4 екземпляри завдань, у містобудуванні та просторовому плануванні — 5, а в правовій галузі — 15. Відкритий набір наразі становить лише частину повного пулу завдань. Дослідницька команда провела перевірку: на Claude Code + Opus 4.7 коефіцієнт кореляції між прохідністю відкритого піднабору та повного пулу завдань у різних галузях становить лише 0,89.

Проте дослідницька команда вважає, що ALE — це постійно оновлюваний стандарт. У майбутньому набір завдань продовжуватиме розширюватися новими робочими процесами та новими галузями, а завдання, які зараз зберігаються у приватному наборі, регулярно будуть періодично переміщуватися до відкритого набору.