Anthropic révèle un taux de piratage de 31,5 % pour l'agent de navigateur Opus 4.8 avant les mesures de sécurité

Près d’une tentative sur trois de prise de contrôle du nouvel agent de navigateur IA d’Anthropic a réussi avant que les mesures de sécurité ne soient activées. Ce n’est pas une rumeur provenant d’un canal Slack d’équipe rouge. C’est un chiffre qu’Anthropic a publié dans sa propre fiche système.

L'entreprise a publié la fiche système Claude Opus 4.8 le 28 mai, étalée sur 244 pages et couvrant quatre surfaces agentic. Le taux de détournement pré-sauvegarde pour l'agent navigateur s'est établi à 31,5 %. Pour le dire simplement : si un acteur malveillant lançait une attaque par injection de prompt sur le modèle pendant qu'il naviguait sur le web, l'attaque réussissait environ un tiers du temps, en supposant qu'aucune couche de défense n'était active.

L'écart de transparence entre les laboratoires de pointe

Voici la chose. Ce chiffre de 31,5 % semble mauvais isolément. Mais Anthropic est le seul laboratoire de pointe à avoir fourni aux professionnels de la sécurité un chiffre concret sur lequel travailler ce printemps.

OpenAI a publié une divulgation sur les injections de prompts qui ne couvrait qu'une seule surface : les connecteurs. Google a déplacé l'ensemble du sujet hors de sa fiche modèle pour le transférer dans un document de cadre de sécurité plus large, diluant ainsi la spécificité. Meta n'a pas publié du tout de fiche modèle fermée.

Ce que font réellement les mesures de sécurité

Le chiffre de 31,5 % est une mesure pré-sauvegarde, ce qui constitue un contexte important. Il représente la surface de vulnérabilité brute du modèle avant que les défenses en couches d'Anthropic ne soient activées.

Les tests post-sauvegarde sur un modèle associé, Opus 4.5, ont montré une baisse des taux de réussite des attaques à environ 1 %. Il s'agit d'une réduction d'environ 97 % par rapport à la base non protégée.

L'injection de prompts reste le principal défi de sécurité pour les systèmes d'IA dotées de capacités agentices. Lorsqu'un modèle peut naviguer sur des sites web, remplir des formulaires ou exécuter des tâches en plusieurs étapes au nom d'un utilisateur, une injection réussie peut détourner toute cette agence vers les objectifs d'un attaquant.

Les versions précédentes des fiches système d'Anthropic, y compris le rapport Opus 4.7, incluaient également des métriques quantifiées de résistance aux injections. L'entreprise a établi une trajectoire de publication cohérente de ces chiffres, ce qui rend les données plus utiles au fil du temps comme tendance plutôt qu'une simple image instantanée.

Pourquoi cela est important pour les plateformes intégrant la crypto et l'IA

L'industrie des cryptomonnaies est profondément impliquée dans les intégrations d'agents IA. Des bots de trading autonomes, des gestionnaires de portefeuille pilotés par l'IA, des analyseurs de données sur chaîne et des agents DeFi qui exécutent des transactions sur la base d'instructions en langage naturel sont soit en ligne, soit en développement sur des dizaines de protocoles.

Un taux de prise en otage préventif de 31,5 % devrait faire réfléchir toute équipe développant ces produits. Si votre agent IA consulte des sources de données externes, analyse du contenu sur chaîne provenant de contrats intelligents potentiellement hostiles ou lit du contenu généré par les utilisateurs sur des forums et plateformes sociales, l'injection de prompts n'est pas un risque théorique. C'est un risque mesuré.

L'amélioration post-sauvegarde vers environ 1 % est encourageante, mais elle comporte une réserve. Ce chiffre provient de l'environnement de test d'Anthropic lui-même. Les conditions de déploiement en milieu réel, où les agents interagissent avec du contenu web désordonné et non contrôlé, et où les adversaires ont des incitations financières mesurées en millions, mettront à l'épreuve ces défenses différemment qu'un exercice de red-team.

Pour les investisseurs évaluant des projets crypto liés à l'IA, le fossé de transparence entre les laboratoires constitue en lui-même un signal. Les protocoles construits sur les modèles Claude peuvent au moins se référer à des données de sécurité publiées et expliquer leurs stratégies d'atténuation. Les projets qui s'appuient sur des modèles provenant de laboratoires n'ayant pas publié de données comparables demandent aux utilisateurs de faire confiance à une boîte noire.