Une étude montre que les agents IA restent vulnérables aux attaques par injection de prompts

CoinDesk rapporte :

Alors que les agents IA capables de se connecter autonomement, de rechercher des informations, d'acheter et même d'effectuer des transactions cryptographiques se déploient rapidement, une étude récente révèle que ces systèmes restent vulnérables aux attaques par injection de prompts.

L'étude a été menée par des équipes de l'Université technologique de Nanyang, de ST Engineering, d'IBM Research et de l'Université de l'Illinois à Urbana-Champaign. Les chercheurs ont indiqué que, parmi les échantillons testés, aucun agent d'IA n'a pu résister de manière constante à ce type d'attaque.

Taux de réussite des attaques directes dépassant 79 %

L'injection de prompt consiste à intégrer des instructions cachées dans une page web, un texte ou d'autres contenus externes afin d'inciter un agent IA à s'éloigner de l'objectif initial de l'utilisateur et d'effectuer des actions définies par l'attaquant.

Pour simuler un environnement d'utilisation réel, l'équipe de recherche a développé un benchmark appelé StakeBench pour évaluer la résilience des agents IA face aux attaques lors de tâches en ligne. Les tests couvrent deux cadres d'agents, NanoBrowser et BrowserUse, et intègrent 3 168 simulations d'attaques avec GPT-5 et Gemini 2.5-Flash.

Le cadre de test inclut NanoBrowser et BrowserUse
Le modèle de test inclut GPT-5 et Gemini 2.5-Flash
Le taux de réussite des attaques directes dépasse 79 % dans toutes les configurations.

Les instructions masquées sur la page web peuvent toujours être exécutées

Les résultats de l'étude montrent que le taux de réussite des attaques indirectes intégrées dans le contenu web varie entre 41,67 % et 68,16 %. Ces attaques sont plus proches des scénarios de déploiement réels, car les attaquants n'ont pas besoin d'interagir directement avec les entrées de l'utilisateur ; il suffit qu'ils cachent des instructions dans le contenu web pour influencer les décisions ultérieures de l'agent.

L'équipe a examiné trois facteurs clés : la distance sémantique entre l'objectif d'injection et la tâche de l'utilisateur, la cohérence des indices environnementaux, ainsi que le stade du processus auquel l'agent a été exposé pour la première fois au contenu malveillant. L'étude conclut que ces facteurs influencent tous la réussite de l'attaque.

Les entreprises technologiques ont déjà averti à plusieurs reprises.

Avant la publication de cette étude, les risques associés avaient déjà été mentionnés à plusieurs reprises par de grandes entreprises technologiques. En février, des chercheurs de Microsoft ont averti que des instructions cachées dans les liens de résumés AI pourraient influencer le comportement des chatbots. En avril, Google a également documenté des cas d'injection de prompts cachés dans des pages web, où des attaques visaient à inciter des agents AI à révéler des identifiants ou à lancer des paiements.

Microsoft a ensuite révélé que l'GitHub Action Claude Code d'Anthropic présentait une vulnérabilité d'injecton de prompt, pouvant entraîner l'exposition des informations d'identification des utilisateurs.

L'étude mentionne également une situation appelée « parasitisme caché », dans laquelle l'agent accomplit apparemment la tâche de l'utilisateur tout en avançant en secret les objectifs de l'attaquant. Par exemple, dans un scénario de recommandation de produits, le système peut sembler fournir des suggestions normales tout en orientant discrètement l'utilisateur vers des produits spécifiques.