Huawei lance le benchmark Claw-Anything pour tester les agents IA dans les tâches d'assistant personnel

iconCryptoBriefing
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Huawei a lancé le benchmark Claw-Anything le 25 mai 2026, en partenariat avec l'Institut de technologie de Pékin et l'Université de Pékin. Ce benchmark évalue les agents IA dans la gestion de tâches complexes de la vie numérique à travers plusieurs services. GPT-5.5 a obtenu 34,5 %, tandis que Claude Opus 4.7 a obtenu 31,8 %. Le benchmark comprend 200 tâches vérifiées par des humains, avec une moyenne de 191,7 k mots de contexte. Un pipeline d'entraînement a amélioré les performances de Qwen3.5-27B de 23,7 %. Cette mise à jour actualisée sur l'IA et la cryptomonnaie met en lumière de nouveaux outils pour évaluer les actualités sur les actifs numériques et les capacités de l'IA.

Voici un chiffre modeste pour le cycle de hype sur l’IA : GPT-5.5, l’un des modèles linguistiques les plus avancés au monde, a obtenu seulement 34,5 % lorsqu’on lui a demandé de fonctionner comme un assistant personnel toujours actif dans un environnement numérique réaliste. Claude Opus 4.7 a performé encore moins bien avec 31,8 %.

Ces résultats proviennent de Claw-Anything, un nouveau benchmark publié par des chercheurs de Huawei en collaboration avec l'Institut de technologie de Pékin et l'Université de Pékin. L'article, publié le 25 mai 2026, ne se contente pas de tester si l'IA peut répondre à des questions. Il évalue si l'IA peut réellement gérer votre vie numérique.

Ce que mesure Claw-Anything

Le benchmark simule une vie numérique complète, puis demande aux assistants IA de la gérer à travers des flux d'événements à long terme et plusieurs services backend interdépendants. Au lieu de demander à l'IA de résumer un e-mail, on lui demande de surveiller simultanément votre boîte de réception, votre calendrier, vos applications de messagerie et vos systèmes de fichiers, puis d'effectuer les actions appropriées sans être incitée à le faire.

Publicité

La complexité est considérable. Les tâches impliquent en moyenne 10,1 services interdépendants, avec certains scénarios atteignant jusqu'à 18. Le jeu de référence comprend 200 environnements de tâches vérifiés par des humains, avec une moyenne de 191,7 k mots de contexte par environnement.

Le benchmark évalue les interactions à la fois via l'interface graphique et l'interface en ligne de commande sur plusieurs appareils. Il teste également le comportement proactif : l'IA peut-elle détecter qu'une action est nécessaire avant que vous ne la demandiez ?

Le pipeline d'entraînement offre un soupçon d'espoir

L'équipe de recherche a développé un pipeline automatisé ayant généré 2 000 environnements d'entraînement pour le raffinage de modèles d'IA sur ces tâches d'assistant complexes. Qwen3.5-27B, un modèle open source plus petit, a affiché une amélioration de performance de 23,7 % après avoir été raffiné sur des trajectoires de tâches réussies issues de ces environnements.

ClawBench et WildClawBench, qui évaluent des tâches pratiques en plusieurs étapes similaires au sein de l'écosystème OpenClaw, montrent que les meilleurs modèles d'IA obtiennent des scores compris entre 33 % et 62 %.

Pourquoi les investisseurs en crypto doivent prêter attention

Le taux de réussite de 34,5 % pour GPT-5.5 est particulièrement remarquable, car de nombreux projets crypto basés sur l'IA sont construits sur les modèles d'OpenAI. Les résultats de l'ajustement fin avec Qwen3.5-27B suggèrent qu'une formation spécialisée sur des trajectoires réussies spécifiques au domaine peut améliorer significativement les performances. Cela signifie que les projets d'IA crypto les plus susceptibles de délivrer une véritable valeur sont probablement ceux qui investissent fortement dans la sélection de données d'entraînement de haute qualité issues d'interactions réelles sur la chaîne.

La participation d'Huawei à l'évaluation open-source de l'IA, au sein du cadre plus vaste OpenClaw, signale que la course à la création d'assistants IA fiables devient de plus en plus mondiale. Ce benchmark teste spécifiquement le type de coordination complexe, en plusieurs étapes et sur plusieurs services, que les agents IA crypto devraient être capables d'effectuer de manière fiable : gérer des portefeuilles DeFi sur plusieurs protocoles, surveiller les propositions de gouvernance, rééquilibrer en fonction des conditions du marché et transférer des actifs entre chaînes.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.