Un nouveau jailbreak contourne les protections de l'IA dans 99 % des cas.

Selon Forklog, des chercheurs d'Anthropic, Stanford et Oxford ont découvert que plus un modèle d'IA « réfléchit » longtemps, plus il devient facile de le contourner. L'attaque, appelée détournement par chaîne de raisonnement (Chain-of-Thought Hijacking), exploite le processus de raisonnement du modèle en insérant des instructions malveillantes profondément dans une séquence de tâches bénignes, telles que des puzzles ou des problèmes mathématiques. L'instruction malveillante est dissimulée vers la fin, échappant ainsi à la détection par les filtres de sécurité. Les taux de réussite des attaques ont atteint 99 % pour Gemini 2.5 Pro, 94 % pour GPT-4 Mini, 100 % pour Grok 3 Mini et 94 % pour Claude 4 Sonnet. La vulnérabilité réside dans l'architecture du modèle, où les premières couches détectent les signaux de sécurité et les couches ultérieures produisent le résultat final. Les longues chaînes de raisonnement suppriment ces signaux, permettant ainsi aux contenus nuisibles de passer. Les chercheurs suggèrent de surveiller les étapes de raisonnement en temps réel pour détecter et corriger les schémas dangereux, bien que la mise en œuvre nécessite des ressources informatiques considérables.