Novo Jailbreak Contorna Salvaguardas de IA em 99% dos Casos

iconForklog
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Conforme relatado pelo Forklog, pesquisadores da Anthropic, Stanford e Oxford descobriram que quanto mais tempo um modelo de IA "pensa", mais fácil se torna realizar um jailbreak. O ataque, conhecido como *Chain-of-Thought Hijacking* (sequestro de cadeia de raciocínio), explora o processo de raciocínio do modelo ao inserir prompts maliciosos profundamente em uma sequência de tarefas benignas, como quebra-cabeças ou problemas matemáticos. A instrução maliciosa é escondida próximo ao final, escapando da detecção pelos filtros de segurança. As taxas de sucesso dos ataques atingiram 99% para o Gemini 2.5 Pro, 94% para o GPT o4 mini, 100% para o Grok 3 mini e 94% para o Claude 4 Sonnet. A vulnerabilidade está na arquitetura do modelo, onde as camadas iniciais detectam sinais de segurança e as camadas posteriores produzem a saída final. Cadeias longas de raciocínio suprimem esses sinais, permitindo que conteúdos prejudiciais passem despercebidos. Os pesquisadores sugerem monitorar os passos de raciocínio em tempo real para detectar e corrigir padrões inseguros, embora a implementação requeira recursos computacionais significativos.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.