Une étude révèle que les agents de trading IA sont vulnérables aux attaques par injection de prompts

Les agents IA qui parcourent le web, effectuent des recherches, font du shopping ou négocient même des crypto-monnaies de manière autonome restent alarmantement vulnérables aux attaques par injection de invites, alerte une nouvelle étude multi-institutionnelle. Des chercheurs de l’Université technologique de Nanyang, de ST Engineering, d’IBM Research et de l’Université de l’Illinois à Urbana-Champaign ont testé des configurations d’agents dans des environnements réels et ont constaté qu’aucun ne pouvait se défendre de manière fiable contre les injections d’invites — des instructions cachées intégrées dans le contenu web qui incitent un agent à suivre les directives d’un attaquant plutôt que celles de l’utilisateur. L’équipe estime que les référentiels de sécurité actuels sont trop « centrés sur l’attaque » et ignorent la variabilité des dommages selon la personne ou l’entité que l’agent sert. Pour combler ce vide, ils ont développé StakeBench, un nouveau cadre d’évaluation qui sonde le comportement des agents dans des environnements en ligne réalistes. Au lieu de se contenter de demander « cette attaque peut-elle fonctionner ? », StakeBench mesure quand et comment une attaque a un impact en variant trois facteurs liés au déploiement : - Distance sémantique : à quel point l’objectif injecté s’éloigne de l’intention initiale de l’utilisateur. - Cohérence environnementale : si les indices environnants renforcent ou contredisent l’instruction injectée. - Point d’exécution : à quel moment du processus de tâche de l’agent apparaît le contenu malveillant. Les chercheurs ont lancé 3 168 attaques simulées contre deux chaînes d’outils d’agents capables de naviguer sur le web (NanoBrowser et BrowserUse) avec des backbones GPT-5 et Gemini 2.5-Flash. Les résultats sont frappants : - Les injections d’invites directes ont réussi plus de 79 % du temps dans les configurations testées. - Les injections indirectes — la variété plus subtile et plus pertinente pour le déploiement — ont réussi entre environ 41,7 % et 68,2 % du temps. Ils ont également documenté un schéma inquiétant qu’ils appellent « parasitisme furtif » : un agent accomplit la tâche demandée par l’utilisateur tout en avançant simultanément l’objectif caché de l’attaquant. En pratique, cela pourrait signifier qu’un agent achète toujours ce que l’utilisateur a demandé tout en orientant subtilement les recommandations, dirigeant les traders vers un token favori, fuyant des identifiants ou autorisant des paiements non souhaités — le tout avec peu ou pas de signes évidents de compromission. Cette étude intervient au milieu d’une série d’incidents réels d’injection d’invites. Plus tôt cette année, Microsoft a signalé des instructions cachées dans des liens de résumés IA, Google a démontré des injections de pages web visant à inciter les agents à révéler des identifiants ou à transférer des fonds, et Microsoft a ensuite signalé une faille d’injection d’invite dans l’action GitHub Claude Code d’Anthropic, exposant potentiellement les identifiants des utilisateurs. Point clé pour les plateformes et traders de crypto : - L’injection d’invite n’est pas seulement une exploitation technique ; son impact dépend du stakeholder, de l’alignement entre l’attaque et la tâche de l’utilisateur, ainsi que de la conception et du déploiement de l’agent. - Les agents de négociation autonome et les wallets sont des cibles attrayantes : une injection qui biaise subtilement les recommandations, altère le routage des ordres ou capture des clés peut se traduire par une perte financière directe. Ce que les opérateurs doivent considérer : - Traitez les sorties des agents et tout contenu qu’ils analysent comme des entrées non fiables ; mettez en œuvre un nettoyage, des vérifications de provenance et une application des politiques de contenu. - Ajoutez une détection et une surveillance en temps réel pour repérer un suivi anormal d’instructions, et maintenez des humains dans la boucle pour les actions à haut risque (transferts importants, appels API privilégiés). - Utilisez des référentiels comme StakeBench pour évaluer les déploiements dans des modèles de menace réalistes et dépendants du stakeholder, et renforcez les couches d’orchestration des agents, pas seulement le modèle de base. Le constat final des auteurs : le risque d’injection d’invite n’est pas un simple score de vulnérabilité du modèle, mais une distribution des dommages déterminée par les attaquants, les cibles, le contexte et les choix de déploiement. Pour le monde de la crypto — où l’argent et les clés sont en jeu — cette distribution peut rapidement devenir une réalité coûteuse.