Huawei запускає benchmark Claw-Anything для тестування AI-агентів у завданнях персонального асистента

Ось засмучуюча цифра для хайпу навколо ШІ: GPT-5.5, одна з найбільш просунутих мовних моделей у світі, показала лише 34,5% при спробі функціонувати як постійно активний персональний асистент у реалістичному цифровому середовищі. Claude Opus 4.7 виявився ще гіршим — 31,8%.

Ці результати отримані за допомогою Claw-Anything — нового тесту, опублікованого дослідниками Huawei у співпраці з Пекінським інститутом технологій та Пекінським університетом. Стаття, опублікована 25 травня 2026 року, перевіряє не лише чи може ШІ відповідати на запитання, а чи здатний ШІ реально керувати вашим цифровим життям.

Що саме вимірює Claw-Anything

Еталонний тест симулює повне цифрове життя, а потім просить допоміжні програми ШІ керувати ним упродовж тривалих потоків подій та кількох взаємозалежних бекенд-сервісів. Замість того щоб просити ШІ скоротити лист, ви просите його одночасно стежити за вашою скринькою, календарем, месенджерами та файловими системами, а потім вживати відповідних дій без нагадування.

Складність є значною. Завдання включають в середньому 10,1 взаємозалежних служб, а деякі сценарії досягають 18. Бенчмарк містить 200 середовищ завдань, перевірених людьми, з середньою кількістю 191,7 тис. слів контексту на середовище.

Тестування оцінює взаємодію як графічного інтерфейсу, так і інтерфейсу командного рядка на різних пристроях. Він також перевіряє проактивну поведінку: чи може ШІ виявити, що щось потрібно зробити, перш ніж ви запитаєте?

Конвеєр навчання пропонує краплю сподівання

Дослідницька команда створила автоматизований конвейєр, який згенерував 2000 навчальних середовищ для доналаштування моделей ШІ на цих складних завданнях асистентів. Qwen3.5-27B, менша відкрита модель, продемонструвала покращення продуктивності на 23,7% після доналаштування на успішних траєкторіях завдань з цих середовищ.

ClawBench і WildClawBench, які тестують подібні багатокрокові практичні завдання в межах ширшої екосистеми OpenClaw, показують, що найкращі моделі ШІ набирають від 33% до 62%.

Чому криптоінвесторам слід звертати увагу

Рівень успішності 34,5% для GPT-5.5 особливо вартий уваги, оскільки багато крипто-проектів з ІІ будуються на базі моделей OpenAI. Результати донастройки з Qwen3.5-27B свідчать, що спеціалізована підготовка на основі доменних успішних траєкторій може значно покращити продуктивність. Це означає, що крипто-проекти з ІІ, які найбільш імовірно принесуть реальну вартість, швидше за все, активно інвестують у створення високоякісних навчальних даних на основі реальних взаємодій у ланцюжку.

Участь Huawei у відкритому бенчмаркуванні ШІ разом із загальним фреймворком OpenClaw свідчить про те, що гонка за створення надійних ШІ-асистентів стає все більш глобальною. Цей бенчмарк спеціально тестує складну, багатоетапну, багатосервісну координацію, яку повинні вміти надійно виконувати ШІ-агенти для криптовалют: керування DeFi-портфелями через кілька протоколів, моніторинг пропозицій управління, перебалансування залежно від ринкових умов та пересилання активів між ланцюгами.