Un nuevo jailbreak elude las salvaguardias de la IA en el 99% de los casos.

iconForklog
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Según informó Forklog, investigadores de Anthropic, Stanford y Oxford descubrieron que cuanto más tiempo "piensa" un modelo de inteligencia artificial, más fácil resulta vulnerarlo. El ataque, conocido como secuestro del razonamiento encadenado (Chain-of-Thought Hijacking), aprovecha el proceso de razonamiento del modelo insertando indicaciones maliciosas en una secuencia de tareas benignas, como resolver acertijos o problemas matemáticos. La instrucción maliciosa se oculta cerca del final, evadiendo la detección por parte de los filtros de seguridad. Las tasas de éxito del ataque alcanzaron el 99% para Gemini 2.5 Pro, el 94% para GPT o4 mini, el 100% para Grok 3 mini y el 94% para Claude 4 Sonnet. La vulnerabilidad radica en la arquitectura del modelo, donde las capas iniciales detectan señales de seguridad y las capas posteriores generan la salida final. Las cadenas largas de razonamiento suprimen estas señales, permitiendo que contenido dañino pase inadvertido. Los investigadores sugieren monitorear en tiempo real los pasos de razonamiento para detectar y corregir patrones inseguros, aunque su implementación requiere recursos computacionales significativos.

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.