Huawei запускає benchmark Claw-Anything для тестування AI-агентів у завданнях персонального асистента

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Huawei запустила тест Claw-Anything 25 травня 2026 року у співпраці з Пекінським інститутом технологій та Пекінським університетом. Тест оцінює роботу AI-агентів у виконанні складних завдань цифрового життя через кілька сервісів. GPT-5.5 набрала 34,5%, а Claude Opus 4.7 — 31,8%. Тест включає 200 завдань, підтверджених людьми, з середнім обсягом контексту 191,7 тис. слів. Навчальний конвеєр підвищив продуктивність Qwen3.5-27B на 23,7%. Цей оновлений новинний матеріал про AI та криптовалюту підкреслює нові інструменти для оцінки новин про цифрові активи та можливості штучного інтелекту.

Ось засмучуюча цифра для хайпу навколо ШІ: GPT-5.5, одна з найбільш просунутих мовних моделей у світі, показала лише 34,5% при спробі функціонувати як постійно активний персональний асистент у реалістичному цифровому середовищі. Claude Opus 4.7 виявився ще гіршим — 31,8%.

Ці результати отримані за допомогою Claw-Anything — нового тесту, опублікованого дослідниками Huawei у співпраці з Пекінським інститутом технологій та Пекінським університетом. Стаття, опублікована 25 травня 2026 року, перевіряє не лише чи може ШІ відповідати на запитання, а чи здатний ШІ реально керувати вашим цифровим життям.

Що саме вимірює Claw-Anything

Еталонний тест симулює повне цифрове життя, а потім просить допоміжні програми ШІ керувати ним упродовж тривалих потоків подій та кількох взаємозалежних бекенд-сервісів. Замість того щоб просити ШІ скоротити лист, ви просите його одночасно стежити за вашою скринькою, календарем, месенджерами та файловими системами, а потім вживати відповідних дій без нагадування.

Реклама

Складність є значною. Завдання включають в середньому 10,1 взаємозалежних служб, а деякі сценарії досягають 18. Бенчмарк містить 200 середовищ завдань, перевірених людьми, з середньою кількістю 191,7 тис. слів контексту на середовище.

Тестування оцінює взаємодію як графічного інтерфейсу, так і інтерфейсу командного рядка на різних пристроях. Він також перевіряє проактивну поведінку: чи може ШІ виявити, що щось потрібно зробити, перш ніж ви запитаєте?

Конвеєр навчання пропонує краплю сподівання

Дослідницька команда створила автоматизований конвейєр, який згенерував 2000 навчальних середовищ для доналаштування моделей ШІ на цих складних завданнях асистентів. Qwen3.5-27B, менша відкрита модель, продемонструвала покращення продуктивності на 23,7% після доналаштування на успішних траєкторіях завдань з цих середовищ.

ClawBench і WildClawBench, які тестують подібні багатокрокові практичні завдання в межах ширшої екосистеми OpenClaw, показують, що найкращі моделі ШІ набирають від 33% до 62%.

Чому криптоінвесторам слід звертати увагу

Рівень успішності 34,5% для GPT-5.5 особливо вартий уваги, оскільки багато крипто-проектів з ІІ будуються на базі моделей OpenAI. Результати донастройки з Qwen3.5-27B свідчать, що спеціалізована підготовка на основі доменних успішних траєкторій може значно покращити продуктивність. Це означає, що крипто-проекти з ІІ, які найбільш імовірно принесуть реальну вартість, швидше за все, активно інвестують у створення високоякісних навчальних даних на основі реальних взаємодій у ланцюжку.

Участь Huawei у відкритому бенчмаркуванні ШІ разом із загальним фреймворком OpenClaw свідчить про те, що гонка за створення надійних ШІ-асистентів стає все більш глобальною. Цей бенчмарк спеціально тестує складну, багатоетапну, багатосервісну координацію, яку повинні вміти надійно виконувати ШІ-агенти для криптовалют: керування DeFi-портфелями через кілька протоколів, моніторинг пропозицій управління, перебалансування залежно від ринкових умов та пересилання активів між ланцюгами.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.