Selon Forklog, des chercheurs d'Anthropic, Stanford et Oxford ont découvert que plus un modèle d'IA « réfléchit » longtemps, plus il devient facile de le contourner. L'attaque, appelée détournement par chaîne de raisonnement (Chain-of-Thought Hijacking), exploite le processus de raisonnement du modèle en insérant des instructions malveillantes profondément dans une séquence de tâches bénignes, telles que des puzzles ou des problèmes mathématiques. L'instruction malveillante est dissimulée vers la fin, échappant ainsi à la détection par les filtres de sécurité. Les taux de réussite des attaques ont atteint 99 % pour Gemini 2.5 Pro, 94 % pour GPT-4 Mini, 100 % pour Grok 3 Mini et 94 % pour Claude 4 Sonnet. La vulnérabilité réside dans l'architecture du modèle, où les premières couches détectent les signaux de sécurité et les couches ultérieures produisent le résultat final. Les longues chaînes de raisonnement suppriment ces signaux, permettant ainsi aux contenus nuisibles de passer. Les chercheurs suggèrent de surveiller les étapes de raisonnement en temps réel pour détecter et corriger les schémas dangereux, bien que la mise en œuvre nécessite des ressources informatiques considérables.
Un nouveau jailbreak contourne les protections de l'IA dans 99 % des cas.
ForklogPartager






Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.