Anthropic signale un taux de détournement de 31,5 % pour l'agent de navigateur Opus 4.8 avant les mesures de sécurité

Dirigez un red-teamer vers le dernier modèle d'Anthropic pendant qu'il navigue sur le web, et l'attaquant a réussi à le prendre en otage près d'une fois sur trois. Voici la statistique brute : un taux de réussite de 31,5 % pour les injections de prompts sur l'agent navigateur de Claude Opus 4.8 avant l'activation des mesures de défense.

L'écart de transparence entre les laboratoires

Anthropic a publié un rapport de sécurité de 244 pages le 28 mai, couvrant quatre surfaces agentic distinctes : naviguer sur le web, écrire du code, coordonner avec d'autres agents IA et interagir avec des outils externes.

OpenAI a rapporté sur un seul aspect : les connecteurs. Google a déplacé l'ensemble du sujet hors de sa fiche modèle pour le placer dans un document séparé sur le cadre de sécurité. Meta n'a pas du tout publié de fiche modèle fermée.

Le chiffre de 31,5 % est avant les mesures de sécurité, ce qui signifie qu'il représente la vulnérabilité brute du modèle avant que les couches de défense d'Anthropic ne soient activées. Chaque déploiement en production inclut des garde-fous, une surveillance et un filtrage qui réduisent les taux d'exploitation dans le monde réel. Mais connaître la vulnérabilité de base est exactement le type de données dont les architectes de sécurité ont besoin pour construire correctement ces garde-fous.

Ce que Opus 4.8 fait réellement différemment

Les faux négatifs sur les erreurs de codage, où le modèle ne parvient pas à détecter ses propres erreurs, sont passés de 19,7 % à 3,7 %. Opus 4.8 introduit également une orchestration dynamique multi-agents à grande échelle, coordonnant des centaines de sous-agents simultanément pour gérer de grands projets logiciels.

Pourquoi la crypto devrait faire attention

Un taux de piratage pré-sauvegarde de 31,5 % pour les agents basés sur navigateur devrait faire réfléchir quiconque exécute des systèmes d'IA dans la crypto. Les agents basés sur navigateur sont précisément le type d'outil que les projets crypto déployent pour des tableaux de bord de surveillance, le scraping de données sur chaîne, l'interaction avec les interfaces DEX et l'exécution de trades via des interfaces web.

Une injection de prompt dans un agent de navigateur signifie qu’un site web malveillant, une réponse API compromise ou même un nom de token soigneusement conçu pourrait potentiellement rediriger le comportement d’un agent IA. Dans les logiciels traditionnels, c’est une violation de données. Dans le domaine de la crypto, c’est un wallet vidé.

L'orchestration multi-agents ajoute une couche de complexité supplémentaire. Lorsque Opus 4.8 coordonne des centaines de sous-agents, une seule injection de prompt réussie pourrait se propager à l'ensemble du flux de travail. Dans un contexte crypto, cela fait la différence entre une transaction compromise et une défaillance systémique de toute une opération de trading automatisée.