Novo Jailbreak Contorna Salvaguardas de IA em 99% dos Casos

Conforme relatado pelo Forklog, pesquisadores da Anthropic, Stanford e Oxford descobriram que quanto mais tempo um modelo de IA "pensa", mais fácil se torna realizar um jailbreak. O ataque, conhecido como *Chain-of-Thought Hijacking* (sequestro de cadeia de raciocínio), explora o processo de raciocínio do modelo ao inserir prompts maliciosos profundamente em uma sequência de tarefas benignas, como quebra-cabeças ou problemas matemáticos. A instrução maliciosa é escondida próximo ao final, escapando da detecção pelos filtros de segurança. As taxas de sucesso dos ataques atingiram 99% para o Gemini 2.5 Pro, 94% para o GPT o4 mini, 100% para o Grok 3 mini e 94% para o Claude 4 Sonnet. A vulnerabilidade está na arquitetura do modelo, onde as camadas iniciais detectam sinais de segurança e as camadas posteriores produzem a saída final. Cadeias longas de raciocínio suprimem esses sinais, permitindo que conteúdos prejudiciais passem despercebidos. Os pesquisadores sugerem monitorar os passos de raciocínio em tempo real para detectar e corrigir padrões inseguros, embora a implementação requeira recursos computacionais significativos.