Huawei lança o benchmark Claw-Anything para testar agentes de IA em tarefas de assistente pessoal

Aqui está um número humilde para o ciclo de hype da IA: o GPT-5.5, um dos modelos de linguagem mais avançados do planeta, obteve apenas 34,5% ao ser solicitado a funcionar como um assistente pessoal sempre ativo em um ambiente digital realista. O Claude Opus 4.7 desempenhou-se ainda pior, com 31,8%.

Esses resultados vêm do Claw-Anything, um novo benchmark publicado por pesquisadores da Huawei em colaboração com o Instituto de Tecnologia de Pequim e a Universidade de Pequim. O artigo, lançado em 25 de maio de 2026, não testa apenas se a IA pode responder perguntas. Ele verifica se a IA pode realmente gerenciar sua vida digital.

O que o Claw-Anything realmente mede

O benchmark simula uma vida digital completa e depois pede aos assistentes de IA para gerenciá-la ao longo de fluxos de eventos de longo prazo e múltiplos serviços de backend interdependentes. Em vez de pedir ao AI para resumir um e-mail, você está pedindo a ele para monitorar sua caixa de entrada, calendário, aplicativos de mensagens e sistemas de arquivos simultaneamente, e tomar a ação apropriada sem ser instruído a fazê-lo.

Anúncio

A complexidade é substancial. As tarefas envolvem, em média, 10,1 serviços interdependentes, com alguns cenários atingindo até 18. O benchmark inclui 200 ambientes de tarefas verificados por humanos, com uma média de 191,7k palavras de contexto por ambiente.

O benchmark avalia as interações com a interface gráfica e a interface de linha de comando em vários dispositivos. Ele também testa o comportamento proativo: o AI consegue perceber que algo precisa ser feito antes de você pedir?

A pipeline de treinamento oferece um vislumbre de esperança

A equipe de pesquisa desenvolveu uma pipeline automatizada que gerou 2.000 ambientes de treinamento para ajustar finamente modelos de IA nessas tarefas complexas de assistente. O Qwen3.5-27B, um modelo de código aberto menor, apresentou uma melhoria de desempenho de 23,7% após ser ajustado finamente com trajetórias bem-sucedidas desses ambientes.

ClawBench e WildClawBench, que testam tarefas práticas multietapas semelhantes dentro do ecossistema OpenClaw, mostram os principais modelos de IA pontuando entre 33% e 62%.

Por que os investidores em criptomoedas devem prestar atenção

A taxa de aprovação de 34,5% para o GPT-5.5 é particularmente notável, pois muitos projetos de IA cripto são construídos sobre os modelos da OpenAI. Os resultados de ajuste fino com o Qwen3.5-27B sugerem que o treinamento especializado em trajetórias bem-sucedidas específicas do domínio pode melhorar significativamente o desempenho. Isso significa que os projetos de IA cripto mais prováveis de entregar valor real são provavelmente aqueles que investem pesadamente na curadoria de dados de treinamento de alta qualidade provenientes de interações reais na cadeia.

A participação da Huawei na avaliação de IA de código aberto, juntamente com o framework mais amplo OpenClaw, sinaliza que a corrida para construir assistentes de IA confiáveis está se tornando cada vez mais global. O benchmark testa especificamente o tipo de coordenação complexa, em múltiplos passos e entre múltiplos serviços que agentes de IA cripto precisariam executar com confiabilidade: gerenciar portfólios DeFi em múltiplos protocolos, monitorar propostas de governança, reequilibrar com base nas condições de mercado e transferir ativos entre cadeias.