Huawei lance le benchmark Claw-Anything pour tester les agents IA dans les tâches d'assistant personnel

Voici un chiffre modeste pour le cycle de hype sur l’IA : GPT-5.5, l’un des modèles linguistiques les plus avancés au monde, a obtenu seulement 34,5 % lorsqu’on lui a demandé de fonctionner comme un assistant personnel toujours actif dans un environnement numérique réaliste. Claude Opus 4.7 a performé encore moins bien avec 31,8 %.

Ces résultats proviennent de Claw-Anything, un nouveau benchmark publié par des chercheurs de Huawei en collaboration avec l'Institut de technologie de Pékin et l'Université de Pékin. L'article, publié le 25 mai 2026, ne se contente pas de tester si l'IA peut répondre à des questions. Il évalue si l'IA peut réellement gérer votre vie numérique.

Ce que mesure Claw-Anything

Le benchmark simule une vie numérique complète, puis demande aux assistants IA de la gérer à travers des flux d'événements à long terme et plusieurs services backend interdépendants. Au lieu de demander à l'IA de résumer un e-mail, on lui demande de surveiller simultanément votre boîte de réception, votre calendrier, vos applications de messagerie et vos systèmes de fichiers, puis d'effectuer les actions appropriées sans être incitée à le faire.

La complexité est considérable. Les tâches impliquent en moyenne 10,1 services interdépendants, avec certains scénarios atteignant jusqu'à 18. Le jeu de référence comprend 200 environnements de tâches vérifiés par des humains, avec une moyenne de 191,7 k mots de contexte par environnement.

Le benchmark évalue les interactions à la fois via l'interface graphique et l'interface en ligne de commande sur plusieurs appareils. Il teste également le comportement proactif : l'IA peut-elle détecter qu'une action est nécessaire avant que vous ne la demandiez ?

Le pipeline d'entraînement offre un soupçon d'espoir

L'équipe de recherche a développé un pipeline automatisé ayant généré 2 000 environnements d'entraînement pour le raffinage de modèles d'IA sur ces tâches d'assistant complexes. Qwen3.5-27B, un modèle open source plus petit, a affiché une amélioration de performance de 23,7 % après avoir été raffiné sur des trajectoires de tâches réussies issues de ces environnements.

ClawBench et WildClawBench, qui évaluent des tâches pratiques en plusieurs étapes similaires au sein de l'écosystème OpenClaw, montrent que les meilleurs modèles d'IA obtiennent des scores compris entre 33 % et 62 %.

Pourquoi les investisseurs en crypto doivent prêter attention

Le taux de réussite de 34,5 % pour GPT-5.5 est particulièrement remarquable, car de nombreux projets crypto basés sur l'IA sont construits sur les modèles d'OpenAI. Les résultats de l'ajustement fin avec Qwen3.5-27B suggèrent qu'une formation spécialisée sur des trajectoires réussies spécifiques au domaine peut améliorer significativement les performances. Cela signifie que les projets d'IA crypto les plus susceptibles de délivrer une véritable valeur sont probablement ceux qui investissent fortement dans la sélection de données d'entraînement de haute qualité issues d'interactions réelles sur la chaîne.

La participation d'Huawei à l'évaluation open-source de l'IA, au sein du cadre plus vaste OpenClaw, signale que la course à la création d'assistants IA fiables devient de plus en plus mondiale. Ce benchmark teste spécifiquement le type de coordination complexe, en plusieurs étapes et sur plusieurs services, que les agents IA crypto devraient être capables d'effectuer de manière fiable : gérer des portefeuilles DeFi sur plusieurs protocoles, surveiller les propositions de gouvernance, rééquilibrer en fonction des conditions du marché et transférer des actifs entre chaînes.