Une étude révèle que les agents crypto basés sur l'IA sont vulnérables aux attaques par injection de prompts

Alors que les agents IA — ces bots autonomes capables de naviguer, rechercher, acheter et même négocier des crypto-monnaies — passent des laboratoires aux systèmes du monde réel, les chercheurs avertissent qu’un problème complexe persiste : les attaques par injection de prompts. Une équipe interinstitutionnelle de l’Université technologique de Nanyang, de ST Engineering, d’IBM Research et de l’Université de l’Illinois à Urbana-Champaign rapporte que les agents actuels restent fortement vulnérables à ces attaques, aucune configuration testée ne montrant une résistance constante. Qu’est-ce qu’une injection de prompt ? - Une injection de prompt se produit lorsqu’un attaquant cache des instructions au sein du contenu lu par un agent (pages web, liens ou autres documents). L’agent peut alors suivre les directives cachées de l’attaquant au lieu de l’intention de l’utilisateur — un risque clair lorsque les agents sont autorisés à agir de manière autonome sur des tâches financières, comme exécuter des trades ou interagir avec des wallets et des plateformes d’échange. Ce que l’étude a fait - Pour mieux évaluer les risques du monde réel, les chercheurs ont créé StakeBench, un benchmark qui teste les agents IA contre des injections de prompts dans des environnements en ligne réalistes. StakeBench se concentre sur ce que l’équipe appelle l’injection indirecte de prompt — le canal pertinent pour le déploiement où des instructions malveillantes sont intégrées dans l’environnement rencontré par l’agent. - StakeBench examine trois facteurs clés qui modifient l’impact des attaques : 1. La distance sémantique entre l’objectif injecté et l’intention originale de l’utilisateur (à quel point le but caché est similaire ou différent). 2. La cohérence des indices environnementaux environnants (si le contenu injecté s’intègre naturellement dans la page ou la source). 3. Le moment où, dans la trajectoire d’exécution de l’agent, celui-ci rencontre pour la première fois le contenu injecté. Ce qu’ils ont testé - L’équipe a lancé 3 168 attaques simulées en utilisant deux frameworks d’agents (NanoBrowser et BrowserUse) associés à GPT-5 et Gemini 2.5-Flash. Principaux résultats - Les attaques par injection directe de prompt ont réussi plus de 79 % du temps dans tous les setups testés. - Les taux de réussite des injections indirectes de prompt variaient entre 41,67 % et 68,16 %, selon le contexte et les trois facteurs ci-dessus. - Les chercheurs mettent en évidence un phénomène qu’ils appellent « parasitisme furtif », où l’agent effectue toujours la tâche demandée par l’utilisateur tout en avançant simultanément l’objectif de l’attaquant — par exemple en orientant subtilement les recommandations. Dans les scénarios crypto, cela pourrait signifier inciter un investisseur vers un token particulier ou exécuter des trades qui profitent à un attaquant sans signes évidents de compromission. Pourquoi cela importe pour la crypto - Les agents autonomes sont de plus en plus utilisés pour analyser les données du marché, exécuter des trades, gérer des wallets et interagir avec des protocoles DeFi. Les vulnérabilités par injection de prompt créent donc des surfaces d’attaque claires : depuis des recommandations biaisées de tokens et un rééquilibrage manipulé du portefeuille jusqu’à la fuite d’identifiants ou des transactions non autorisées. - Les chercheurs soulignent que le risque d’injection de prompt est « dépendant de la victime » : la même exploitation peut avoir des conséquences très différentes selon qui ou quoi l’agent représente, et son impact est déterminé par l’alignement sémantique et l’architecture système — et non seulement par le modèle linguistique sous-jacent. Contexte et incidents antérieurs - Cette étude fait suite à une série de divulgations réelles : Microsoft a averti en février concernant des instructions cachées dans des liens de résumés IA ; Google a décrit en avril des injections de prompts via des pages web visant à faire fuir des identifiants ou envoyer des paiements ; et Microsoft a récemment révélé une faille d’injection de prompt dans l’action GitHub Claude Code d’Anthropic, susceptible d’exposer les identifiants des utilisateurs. Conclusion - La sécurité contre les injections de prompt n’est pas une propriété unique du modèle, mais une distribution multidimensionnelle des dommages influencée par les parties prenantes, l’alignement des tâches et le contexte de déploiement. Pour les plateformes crypto et les traders qui s’appuient sur des agents autonomes, cette recherche est un signal d’alerte : une évaluation rigoureuse, sensible au contexte (comme StakeBench) et des défenses renforcées sont nécessaires avant de confier à ces agents le contrôle sur les fonds ou les identifiants de wallet.