Un nuevo jailbreak elude las salvaguardias de la IA en el 99% de los casos.

Según informó Forklog, investigadores de Anthropic, Stanford y Oxford descubrieron que cuanto más tiempo "piensa" un modelo de inteligencia artificial, más fácil resulta vulnerarlo. El ataque, conocido como secuestro del razonamiento encadenado (Chain-of-Thought Hijacking), aprovecha el proceso de razonamiento del modelo insertando indicaciones maliciosas en una secuencia de tareas benignas, como resolver acertijos o problemas matemáticos. La instrucción maliciosa se oculta cerca del final, evadiendo la detección por parte de los filtros de seguridad. Las tasas de éxito del ataque alcanzaron el 99% para Gemini 2.5 Pro, el 94% para GPT o4 mini, el 100% para Grok 3 mini y el 94% para Claude 4 Sonnet. La vulnerabilidad radica en la arquitectura del modelo, donde las capas iniciales detectan señales de seguridad y las capas posteriores generan la salida final. Las cadenas largas de razonamiento suprimen estas señales, permitiendo que contenido dañino pase inadvertido. Los investigadores sugieren monitorear en tiempo real los pasos de razonamiento para detectar y corregir patrones inseguros, aunque su implementación requiere recursos computacionales significativos.