Points clés

L'exploitation par l'IA dépasse la défense : les premiers résultats révèlent un « écart de sécurité ». GPT-5.3-Codex d'OpenAI a atteint un taux de réussite impressionnant de 72,2 % en mode exploitation, mais n'a corrigé que environ 41,5 % de ces mêmes bogues correctement. L'IA est actuellement un meilleur pirate qu'un médecin.
Enjeux du monde réel : Contrairement aux indicateurs synthétiques, EVMbench utilise un code de production, y compris des scénarios complexes provenant de la blockchain Tempo. Cela garantit que l'IA est testée sur des scénarios « en conditions réelles » où des erreurs de logique peuvent entraîner des pertes de plusieurs millions.
Un appel à l'action défensif : En plus du benchmark, OpenAI a engagé 10 millions de dollars en crédits API pour la recherche en cybersécurité défensive. L'objectif est de s'assurer que, à mesure que l'IA devient plus puissante, les « bonnes personnes » disposent des outils nécessaires pour développer des auditeurs automatisés pilotés par l'IA capables de suivre la cadence des attaquants pilotés par l'IA.

Qu'est-ce qu'EVMbench ? La nouvelle norme IA pour la sécurité des contrats intelligents

Dans le monde en constante évolution du Web3, la sécurité n'est plus seulement une entreprise humaine. Le 18 février 2026, OpenAI et Paradigm ont annoncé le lancement de EVMbench, un cadre d'évaluation open-source conçu pour évaluer la capacité des agents IA à gérer le monde à haut risque de la sécurité des contrats intelligents ethereum.

Alors que les modèles d'IA comme GPT-5.3-Codex deviennent de plus en plus capables d'écrire et d'exécuter du code, l'industrie a besoin d'un moyen de mesurer si ces agents deviennent de meilleurs défenseurs ou des attaquants plus dangereux.

Comment fonctionne EVMbench ?

EVMbench n'est pas simplement un simple quiz ; c'est un test de stress rigoureux et isolé.() Il utilise un jeu de données de 120 vulnérabilités à haute gravité issues de 40 audits et compétitions de sécurité du monde réel (telles que Code4rena).

Le cadre évalue les modèles d'IA selon trois « modes » distincts qui reflètent le processus de travail d'un auditeur de sécurité professionnel :

Mode Détection (L'auditeur)

L'IA reçoit un référentiel de contrats intelligents et doit identifier des vulnérabilités spécifiques considérées comme des « vérités terrain ». Le succès est mesuré par le rappel — combien de bugs réels l'IA a-t-elle détectés par rapport aux experts humains ayant initialement audité le code ?

Mode correctif (L'ingénieur)

Une fois un bug découvert, l’IA peut-il le corriger ? Dans ce mode, l’agent doit modifier le code pour éliminer la vulnérabilité.() Toutefois, il y a un piège : le « correctif » doit préserver la fonctionnalité d’origine.() Si l’IA corrige le bug mais rompt les fonctionnalités principales du contrat, il échoue.

Mode d'exploitation (Le Red Teamer)

Ceci est le paramètre le plus "réaliste". Dans un environnement Ethereum local et isolé (utilisant un outil appelé Anvil), l'IA doit réussir à exécuter une attaque de vidange de fonds. Le benchmark vérifie automatiquement si l'"attaquant" a effectivement réussi à déplacer des fonds simulés.

FAQ pour EVMbench

EVMbench utilise-t-il de l'argent réel ou des réseaux en direct ?

Non. EVMbench s'exécute dans un environnement local complètement isolé. Il utilise une version « conteneurisée » de la machine virtuelle Ethereum, ce qui permet aux agents IA d'essayer de « vider les fonds » sans aucun risque financier réel ni conséquence légale.

Pourquoi OpenAI et Paradigm ont-ils publié cela ?

Créer une « règle standardisée » pour la sécurité de l’IA. En rendant le benchmark open source, ils permettent à l’ensemble de la communauté crypto de suivre les capacités de l’IA et encouragent les développeurs à créer des outils d’audit assistés par l’IA avant que des acteurs malveillants ne puissent armer cette technologie.

Les agents IA peuvent-ils désormais remplacer les auditeurs humains de contrats intelligents ?

Pas encore. Bien que l’IA soit excellente pour trouver des bugs spécifiques « dans une botte de foin » lorsqu’elle reçoit des indices, elle peine encore à effectuer des audits complets de l’ensemble des écosystèmes. La supervision humaine reste le « boss final » de la sécurité des contrats intelligents.

Quel est le risque « Vibe-Coding » mentionné dans ces rapports ?

« Vibe-coding » désigne les développeurs qui utilisent l'IA pour générer rapidement du code et le déployer sans examen manuel approfondi. Les récents exploits (comme l'incident Moonwell de 1,78 M $) montrent que lorsque les humains approuvent trop rapidement le code généré par l'IA, des erreurs de logique critiques peuvent passer inaperçues sur le mainnet.

Comment puis-je utiliser EVMbench pour tester mes propres agents IA ?

L'ensemble du cadre est open-source et disponible sur GitHub. Les développeurs peuvent télécharger l'ensemble de données, configurer un environnement local Docker/Anvil et exécuter leurs propres agents via les pipelines Détecter, Corriger et Exploiter.

Qu'est-ce qu'EVMbench ? La nouvelle norme IA pour la sécurité des contrats intelligents

Points clés

Qu'est-ce qu'EVMbench ? La nouvelle norme IA pour la sécurité des contrats intelligents

Comment fonctionne EVMbench ?

Mode Détection (L'auditeur)

Mode correctif (L'ingénieur)

Mode d'exploitation (Le Red Teamer)

FAQ pour EVMbench

EVMbench utilise-t-il de l'argent réel ou des réseaux en direct ?

Pourquoi OpenAI et Paradigm ont-ils publié cela ?

Les agents IA peuvent-ils désormais remplacer les auditeurs humains de contrats intelligents ?

Quel est le risque « Vibe-Coding » mentionné dans ces rapports ?

Comment puis-je utiliser EVMbench pour tester mes propres agents IA ?