Benchmark de l'agent IA OpenClaw : les 10 meilleurs modèles classés par taux de réussite

icon MarsBit
Partager
AI summary iconRésumé

Quel modèle de grande taille est véritablement le meilleur sur les tâches d'agents OpenClaw en monde réel ?

MyToken a élaboré, sur la base de données de sites d'évaluation, un benchmark transparent axé exclusivement sur la mesure des capacités réelles des agents d'encodage IA, en se concentrant uniquement sur le taux de réussite (la vitesse et le coût étant des dimensions indépendantes, analysées ultérieurement). Entièrement ouvert et reproductible, il présente uniquement des critères d'évaluation rigoureux et le classement des 10 meilleurs taux de réussite récents.

I. Critères d'évaluation : Taux de réussite

Critère spécifique : Pourcentage de tâches accomplies de manière complète et précise par les agents IA. Chaque tâche suit un processus hautement standardisé :

  • Prompt utilisateur précis

Envoyer à l'agent l'intégralité pour simuler un scénario de demande utilisateur réel

  • Comportement attendu

Les méthodes acceptables et les points clés de décision sont indiqués.

  • Critères d'évaluation (checklist)

Liste des critères d'acceptation atomisés vérifiables point par point

Deuxièmement, trois méthodes d'évaluation

Cette évaluation utilise principalement trois méthodes d'évaluation.

  • Vérification automatisée : Le script Python vérifie directement le contenu des fichiers, les enregistrements d'exécution, les appels d'outils et autres résultats objectifs.

  • Juge de modèle LLM : Claude Opus attribue des notes selon une échelle détaillée (qualité du contenu, pertinence, intégralité, etc.)

  • Mode hybride : vérification objective automatisée + évaluation qualitative par un juge LLM

Toutes les définitions de tâches, les prompts et les logiques d'évaluation sont publiés pour permettre la reprise et la vérification.

Trois. Tâches à évaluer

Ce benchmark couvre 23 catégories de tâches différentes, incluant des interactions de base, des opérations sur des fichiers/code, la création de contenu, l'analyse de recherche, l'appel d'outils système, la persistance de la mémoire, et d'autres dimensions, offrant une forte similitude avec les scénarios d'utilisation quotidiens des développeurs avec OpenClaw :

  1. Vérification de la cohérence (automatisée) — traiter les commandes simples et répondre correctement aux salutations

  2. Création d'événement de calendrier (automatisation) — génération de fichiers de calendrier ICS standards à partir de langage naturel

  3. Recherche de cours boursier (automatisée) — Requête en temps réel des cours et génération de rapports formatés

  4. Blog Post Writing (LLM Judge) — Write a structured Markdown blog post of approximately 500 words

  5. Création de script météo (automatisation) — Écrire un script Python pour l'API météo avec gestion des erreurs

  6. Résumé de document (jugement LLM) — Résumé concis en trois parties sur le thème central

  7. Recherche sur les conférences technologiques (juge LLM) — Recueil et organisation des informations de 5 conférences technologiques réelles (nom, date, lieu, lien)

  8. Rédaction d’un e-mail professionnel (jugement LLM) — Refuser poliment la réunion et proposer une alternative

  9. Récupération de mémoire à partir du contexte (automatisée) — Extraction précise de dates, de membres, de stack technique, etc. à partir des notes de projet

  10. Création de la structure de fichiers (automatisation) — génération automatique du répertoire de projet standard, du README et du .gitignore

  11. Workflow API en plusieurs étapes (hybride) — lire la configuration → écrire le script d'appel → documenter complètement

  12. Installez la compétence ClawdHub (automatisation) — installez-la à partir du dépôt de compétences et vérifiez sa disponibilité

  13. Rechercher et installer une compétence (automatisation) — rechercher et installer correctement une compétence liée à la météo

  14. Génération d'images IA (mixte) — Générez et enregistrez des images selon la description

  15. Humaniser les blogs générés par l’IA (jugement LLM) — transformer un contenu trop machine en langage naturel et conversationnel

  16. Résumé quotidien de recherche (juge LLM) — Synthèse cohérente de plusieurs documents

  17. Tri des e-mails de la boîte de réception (mixte) — Analyser plusieurs e-mails et établir un rapport classé par urgence

  18. Recherche et synthèse d’e-mails (mixte) — Rechercher les e-mails archivés et extraire les informations clés

  19. Recherche de marché compétitive (mixte) — Analyse des concurrents dans le domaine des APM d'entreprise

  20. Résumé CSV et Excel (mixte) — Analyser les fichiers de tableaux et générer des insights

  21. Résumé PDF ELI5 (jugement LLM) — Expliquez les PDF techniques avec des mots compréhensibles pour un enfant de 5 ans

  22. Compréhension du rapport OpenClaw (automatisation) — Répondre précisément à des questions spécifiques à partir de rapports d'étude au format PDF

  23. Persistence des connaissances du Second Brain (hybride) — Stockage inter-sessions et rappel précis des informations

Quatre : Conclusion principale : Classement des 10 meilleurs modèles par taux de réussite (Meilleur % / Moyenne %)

  • Les données sont mises à jour au 7 avril 2026

  • Le % le plus élevé correspond au taux de réussite le plus élevé sur une seule opération, tandis que le % moyen représente le taux de réussite moyen sur plusieurs opérations, reflétant mieux la stabilité.

Voici les dix modèles avec le taux de réussite le plus élevé

  1. anthropic/claude-opus-4.6 (Anthropic) —— 93,3 % / 82,0 %

  2. arcee-ai/trinity-large-thinking (Arcee AI) — 91,9 % / 91,9 %

  3. openai/gpt-5.4 (OpenAI) — 90,5 % / 81,7 %

  4. qwen/qwen3.5-27b (Qwen) — 90,0 % / 78,5 %

  5. minimax/minimax-m2.7 (MiniMax) — 89,8 % / 83,2 %

  6. anthropic/claude-haiku-4.5 (Anthropic) —— 89,5 % / 78,1 %

  7. qwen/qwen3.5-397b-a17b (Qwen) — 89,1 % / 80,4 %

  8. xiaomi/mimo-v2-flash (Xiaomi) —— 88,8 % / 70,2 %

  9. qwen/qwen3.6-plus-preview (Qwen) — 88,6 % / 84,0 %

  10. nvidia/nemotron-3-super-120b-a12b (NVIDIA) —— 88,6 % / 75,5 %

OpenClaw

Claude Opus 4.6 mène actuellement avec un taux de réussite maximal de 93,3 %, mais Trinity d'Arcee se distingue par sa stabilité moyenne remarquable, tandis que plusieurs modèles de la série Qwen figurent parmi les dix premiers, démontrant un fort potentiel de rapport qualité-prix. Le taux de réussite constitue un seuil de base ; la vitesse et le coût influenceront ultérieurement l'expérience réelle.

Ce benchmark de 23 tâches est entièrement transparent ; nous recommandons vivement à chacun de l'tester selon son propre contexte. Pour plus de classements d'autres modèles, veuillez attendre la fonctionnalité prochaine de classement des agents de MyToken.

(Les données proviennent du benchmark OpenClaw publié par PinchBench, en mise à jour continue.)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.