Huawei запускаетbenchmark Claw-Anything для тестирования ИИ-агентов в задачах личных ассистентов

Вот скромное число для цикла хайпа в области ИИ: GPT-5.5, одна из самых продвинутых языковых моделей в мире, показала результат всего 34,5% при попытке функционировать в качестве круглосуточного личного ассистента в реалистичной цифровой среде. Claude Opus 4.7 показал ещё хуже — 31,8%.

Эти результаты получены с использованием Claw-Anything — нового стандарта, опубликованного исследователями Huawei в сотрудничестве с Пекинским институтом технологий и Пекинским университетом. Статья, выпущенная 25 мая 2026 года, проверяет не только способность ИИ отвечать на вопросы, но и способность ИИ фактически управлять вашей цифровой жизнью.

Что на самом деле измеряет Claw-Anything

Эталонный тест имитирует полную цифровую жизнь, а затем просит помощников ИИ управлять ею в рамках длинных потоков событий и нескольких взаимозависимых бэкенд-сервисов. Вместо того чтобы просить ИИ суммировать электронное письмо, вы просите его одновременно отслеживать вашу почту, календарь, мессенджеры и файловые системы, а затем принимать соответствующие действия без явных указаний.

Сложность значительна. Задачи включают в среднем 10,1 взаимозависимых сервисов, а в некоторых сценариях — до 18. Бенчмарк включает 200 сред environments, проверенных людьми, со средним объемом 191,7 тыс. слов контекста на среду.

Тестирование оценивает взаимодействие как с графическим интерфейсом, так и с командной строкой на различных устройствах. Оно также проверяет проактивное поведение: может ли ИИ заметить, что что-то нужно сделать, прежде чем вы об этом попросите?

Конвейер обучения предлагает искру надежды

Исследовательская команда создала автоматизированную конвейерную систему, сгенерировавшую 2000 обучающих сред для дообучения моделей ИИ на этих сложных задачах ассистента. Меньшая открытая модель Qwen3.5-27B показала улучшение производительности на 23,7% после дообучения на успешных траекториях задач из этих сред.

ClawBench и WildClawBench, тестирующие похожие многошаговые практические задачи в рамках более широкой экосистемы OpenClaw, показывают, что лучшие модели ИИ набирают от 33% до 62%.

Почему криптоинвесторы должны обратить внимание

Процент прохождения 34,5% для GPT-5.5 особенно примечателен, поскольку многие крипто-проекты ИИ построены на базе моделей OpenAI. Результаты тонкой настройки с Qwen3.5-27B показывают, что специализированное обучение на доменных успешных траекториях может значимо улучшить производительность. Это означает, что крипто-проекты ИИ, наиболее вероятно способные доставить реальную ценность, — это те, которые активно инвестируют в сбор высококачественных обучающих данных из реальных взаимодействий в цепочке.

Участие Huawei в открытой оценке ИИ в рамках более широкой платформы OpenClaw свидетельствует о том, что гонка за создание надежных ИИ-ассистентов становится все более глобальной. Данный тест специально оценивает сложную, многоэтапную, многопроцессную координацию, которую должны надежно выполнять ИИ-агенты в криптовалюте: управление DeFi-портфелями через несколько протоколов, мониторинг предложений по управлению, ребалансировку на основе рыночных условий и перевод активов между цепочками.