Huawei запускаетbenchmark Claw-Anything для тестирования ИИ-агентов в задачах личных ассистентов

iconCryptoBriefing
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconСводка

expand icon
Huawei запустила бенчмарк Claw-Anything 25 мая 2026 года в партнерстве с Пекинским политехническим институтом и Пекинским университетом. Бенчмарк оценивает способность ИИ-агентов управлять сложными задачами цифровой жизни через несколько сервисов. GPT-5.5 показал результат 34,5%, а Claude Opus 4.7 — 31,8%. Бенчмарк включает 200 задач, проверенных людьми, со средним объемом контекста 191,7 тыс. слов. Обучающая конвейерная система повысила производительность Qwen3.5-27B на 23,7%. Это обновление новостей об ИИ и криптовалюте подчеркивает новые инструменты для оценки новостей о цифровых активах и возможностей ИИ.

Вот скромное число для цикла хайпа в области ИИ: GPT-5.5, одна из самых продвинутых языковых моделей в мире, показала результат всего 34,5% при попытке функционировать в качестве круглосуточного личного ассистента в реалистичной цифровой среде. Claude Opus 4.7 показал ещё хуже — 31,8%.

Эти результаты получены с использованием Claw-Anything — нового стандарта, опубликованного исследователями Huawei в сотрудничестве с Пекинским институтом технологий и Пекинским университетом. Статья, выпущенная 25 мая 2026 года, проверяет не только способность ИИ отвечать на вопросы, но и способность ИИ фактически управлять вашей цифровой жизнью.

Что на самом деле измеряет Claw-Anything

Эталонный тест имитирует полную цифровую жизнь, а затем просит помощников ИИ управлять ею в рамках длинных потоков событий и нескольких взаимозависимых бэкенд-сервисов. Вместо того чтобы просить ИИ суммировать электронное письмо, вы просите его одновременно отслеживать вашу почту, календарь, мессенджеры и файловые системы, а затем принимать соответствующие действия без явных указаний.

Реклама

Сложность значительна. Задачи включают в среднем 10,1 взаимозависимых сервисов, а в некоторых сценариях — до 18. Бенчмарк включает 200 сред environments, проверенных людьми, со средним объемом 191,7 тыс. слов контекста на среду.

Тестирование оценивает взаимодействие как с графическим интерфейсом, так и с командной строкой на различных устройствах. Оно также проверяет проактивное поведение: может ли ИИ заметить, что что-то нужно сделать, прежде чем вы об этом попросите?

Конвейер обучения предлагает искру надежды

Исследовательская команда создала автоматизированную конвейерную систему, сгенерировавшую 2000 обучающих сред для дообучения моделей ИИ на этих сложных задачах ассистента. Меньшая открытая модель Qwen3.5-27B показала улучшение производительности на 23,7% после дообучения на успешных траекториях задач из этих сред.

ClawBench и WildClawBench, тестирующие похожие многошаговые практические задачи в рамках более широкой экосистемы OpenClaw, показывают, что лучшие модели ИИ набирают от 33% до 62%.

Почему криптоинвесторы должны обратить внимание

Процент прохождения 34,5% для GPT-5.5 особенно примечателен, поскольку многие крипто-проекты ИИ построены на базе моделей OpenAI. Результаты тонкой настройки с Qwen3.5-27B показывают, что специализированное обучение на доменных успешных траекториях может значимо улучшить производительность. Это означает, что крипто-проекты ИИ, наиболее вероятно способные доставить реальную ценность, — это те, которые активно инвестируют в сбор высококачественных обучающих данных из реальных взаимодействий в цепочке.

Участие Huawei в открытой оценке ИИ в рамках более широкой платформы OpenClaw свидетельствует о том, что гонка за создание надежных ИИ-ассистентов становится все более глобальной. Данный тест специально оценивает сложную, многоэтапную, многопроцессную координацию, которую должны надежно выполнять ИИ-агенты в криптовалюте: управление DeFi-портфелями через несколько протоколов, мониторинг предложений по управлению, ребалансировку на основе рыночных условий и перевод активов между цепочками.

Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.