Huawei lança o benchmark Claw-Anything para testar agentes de IA em tarefas de assistente pessoal

iconCryptoBriefing
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Huawei lançou o benchmark Claw-Anything em 25 de maio de 2026, em parceria com o Beijing Institute of Technology e a Universidade de Pequim. O benchmark testa agentes de IA na gestão de tarefas complexas da vida digital em múltiplos serviços. O GPT-5.5 obteve 34,5%, enquanto o Claude Opus 4.7 obteve 31,8%. O benchmark inclui 200 tarefas verificadas por humanos, com uma média de 191,7k palavras de contexto. Um pipeline de treinamento aumentou o desempenho do Qwen3.5-27B em 23,7%. Esta atualização de notícias de IA + cripto destaca novas ferramentas para avaliar notícias de ativos digitais e capacidades de IA.

Aqui está um número humilde para o ciclo de hype da IA: o GPT-5.5, um dos modelos de linguagem mais avançados do planeta, obteve apenas 34,5% ao ser solicitado a funcionar como um assistente pessoal sempre ativo em um ambiente digital realista. O Claude Opus 4.7 desempenhou-se ainda pior, com 31,8%.

Esses resultados vêm do Claw-Anything, um novo benchmark publicado por pesquisadores da Huawei em colaboração com o Instituto de Tecnologia de Pequim e a Universidade de Pequim. O artigo, lançado em 25 de maio de 2026, não testa apenas se a IA pode responder perguntas. Ele verifica se a IA pode realmente gerenciar sua vida digital.

O que o Claw-Anything realmente mede

O benchmark simula uma vida digital completa e depois pede aos assistentes de IA para gerenciá-la ao longo de fluxos de eventos de longo prazo e múltiplos serviços de backend interdependentes. Em vez de pedir ao AI para resumir um e-mail, você está pedindo a ele para monitorar sua caixa de entrada, calendário, aplicativos de mensagens e sistemas de arquivos simultaneamente, e tomar a ação apropriada sem ser instruído a fazê-lo.

Anúncio

A complexidade é substancial. As tarefas envolvem, em média, 10,1 serviços interdependentes, com alguns cenários atingindo até 18. O benchmark inclui 200 ambientes de tarefas verificados por humanos, com uma média de 191,7k palavras de contexto por ambiente.

O benchmark avalia as interações com a interface gráfica e a interface de linha de comando em vários dispositivos. Ele também testa o comportamento proativo: o AI consegue perceber que algo precisa ser feito antes de você pedir?

A pipeline de treinamento oferece um vislumbre de esperança

A equipe de pesquisa desenvolveu uma pipeline automatizada que gerou 2.000 ambientes de treinamento para ajustar finamente modelos de IA nessas tarefas complexas de assistente. O Qwen3.5-27B, um modelo de código aberto menor, apresentou uma melhoria de desempenho de 23,7% após ser ajustado finamente com trajetórias bem-sucedidas desses ambientes.

ClawBench e WildClawBench, que testam tarefas práticas multietapas semelhantes dentro do ecossistema OpenClaw, mostram os principais modelos de IA pontuando entre 33% e 62%.

Por que os investidores em criptomoedas devem prestar atenção

A taxa de aprovação de 34,5% para o GPT-5.5 é particularmente notável, pois muitos projetos de IA cripto são construídos sobre os modelos da OpenAI. Os resultados de ajuste fino com o Qwen3.5-27B sugerem que o treinamento especializado em trajetórias bem-sucedidas específicas do domínio pode melhorar significativamente o desempenho. Isso significa que os projetos de IA cripto mais prováveis de entregar valor real são provavelmente aqueles que investem pesadamente na curadoria de dados de treinamento de alta qualidade provenientes de interações reais na cadeia.

A participação da Huawei na avaliação de IA de código aberto, juntamente com o framework mais amplo OpenClaw, sinaliza que a corrida para construir assistentes de IA confiáveis está se tornando cada vez mais global. O benchmark testa especificamente o tipo de coordenação complexa, em múltiplos passos e entre múltiplos serviços que agentes de IA cripto precisariam executar com confiabilidade: gerenciar portfólios DeFi em múltiplos protocolos, monitorar propostas de governança, reequilibrar com base nas condições de mercado e transferir ativos entre cadeias.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.