Les chercheurs de Google et de Meta avertissent que les agents IA doivent être traités comme des systèmes non fiables

Les chercheurs de Google et de Meta affirment que la robustesse des modèles d'IA seule ne peut pas sécuriser les systèmes agentic.
Onze attaques du monde réel démontrent que l'injection de invites contourne toujours les défenses au niveau du modèle.
Les agents nécessitent une séparation des données d'instruction, un sandboxing avec privilèges minimum et un contrôle du flux d'informations.

Un article de recherche des scientifiques de Google, Meta, de l'UC San Diego et de plusieurs universités adopte une position directe qui remet en question la manière dont l'industrie aborde actuellement la sécurité des agents IA.

L'article, intitulé Agent Security Is a Systems Problem, affirme que considérer les modèles d'IA comme la couche de sécurité principale est fondamentalement insuffisant. Le modèle alimentant tout agent doit au contraire être traité comme un composant non fiable, de la même manière qu'un système d'exploitation traite un processus externe, avec une sécurité appliquée au niveau système autour de celui-ci.

« Les efforts pour renforcer la robustesse du modèle ne suffisent pas à eux seuls », ont écrit les chercheurs. « Nous devons compléter les efforts existants par des techniques issues du domaine de la sécurité des systèmes. »

Pourquoi l'approche actuelle échoue constamment

Les chercheurs ont analysé onze attaques réelles contre AI agents et ont constaté le même schéma à chaque fois. Les développeurs faisaient confiance au modèle d'IA pour s'autopolicer. Les attaquants ont trouvé des moyens de le contourner.

Deux cas documentés illustrent le problème. Une attaque de la fonctionnalité de mémoire de ChatGPT a permis à un attaquant d’injecter des instructions malveillantes via un document ordinaire, provoquant l’envoi continu des conversations utilisateur vers un serveur externe via une URL d’image invisible.

Une attaque Claude Code a utilisé une injection de prompt cachée dans un fichier de code pour extraire les clés API et les exfiltrer via une requête DNS en utilisant la commande ping, qui avait été autorisée sans approbation humaine.

Dans les deux cas, le modèle ne disposait d'aucun mécanisme fiable pour arrêter l'attaque, car les instructions malveillantes étaient indiscernables des instructions légitimes au niveau du modèle.

Trois principes que l'industrie ignore

Les chercheurs ont identifié trois principes de sécurité fondamentaux issus de décennies de sécurité des systèmes que les déploiements d'IA échouent constamment à mettre en œuvre :

Les instructions et les données sont séparées : les instructions fiables et les données externes non fiables traversent le même flux de jetons sans séparation, rendant l'injection de prompt structurellement possible.
Sandboxing avec privilèges minimum : les agents sont régulièrement déployés avec un accès à des commandes shell, des systèmes de fichiers et des API bien au-delà de ce qui est nécessaire pour une tâche spécifique.
Contrôle du flux d'informations : des données sensibles peuvent fuir par des canaux indirects même en présence de contrôles d'accès.

Le problème plus grand

Les agents IA n'ont aucun jugement ni instinct de survie. Ils exploreront chaque répertoire auquel ils ont accès à la vitesse machine. Ils exécuteront toute instruction qui leur parvient si le système le permet.

L'infrastructure de sécurité construite autour des acteurs humains n'a jamais été conçue pour cela. Jusqu'à ce qu'elle soit reconstruite pour les acteurs machines, chaque organisation déployant des agents avec accès aux systèmes de production assume un risque qu'elle ne peut pas mesurer pleinement.

Associé :Foresight Ventures : Les agents IA dépassent les chatbots pour entrer dans le commerce

Avertissement : Les informations présentées dans cet article sont uniquement à des fins informatives et éducatives. Cet article ne constitue pas un conseil financier ou tout autre type de conseil. Coin Edition n'est pas responsable des pertes subies suite à l'utilisation du contenu, des produits ou des services mentionnés. Les lecteurs sont invités à faire preuve de prudence avant de prendre toute action liée à l'entreprise.