Anthropic revela taxa de sequestro de 31,5% para o Agente de Navegador Opus 4.8 antes das salvaguardas

Quase um em cada três tentativas de sequestrar o agente de navegador AI mais recente da Anthropic teve sucesso antes das salvaguardas serem ativadas. Isso não é um boato de um canal do Slack da equipe vermelha. É um número que a Anthropic publicou em seu próprio sistema card.

A empresa lançou o cartão do sistema Claude Opus 4.8 em 28 de maio, com 244 páginas e abrangendo quatro superfícies agênticas. A taxa de sequestro pré-proteção para o agente de navegador foi de 31,5%. Para colocar em termos simples: se um ator malicioso direcionasse um ataque de injeção de prompt ao modelo enquanto ele navegava na web, o ataque funcionava aproximadamente um terço das vezes, assumindo que nenhuma camada defensiva estivesse ativa.

A lacuna de transparência nas laboratórios de ponta

A questão é a seguinte: esse valor de 31,5% parece ruim isoladamente. Mas a Anthropic é o único laboratório de ponta que realmente forneceu aos profissionais de segurança um número concreto para trabalhar nesta primavera.

A OpenAI publicou uma divulgação sobre injeção de prompts que abordou apenas uma superfície: conectores. O Google移除u todo o assunto do seu modelo card e o transferiu para um documento de quadro de segurança mais amplo, diluindo efetivamente a especificidade. A Meta não lançou nenhum modelo card fechado.

Anúncio

O que realmente fazem as salvaguardas

A cifra de 31,5% é uma medição pré-proteção, o que é um contexto importante. Ela representa a superfície de vulnerabilidade bruta do modelo antes das defesas em camadas da Anthropic entrarem em ação.

Os testes pós-proteção em um modelo relacionado, o Opus 4.5, mostraram taxas de sucesso de ataque caindo para aproximadamente 1%. Isso representa uma redução de cerca de 97% em relação à linha de base não protegida.

A injeção de prompt permanece o principal desafio de segurança para sistemas de IA com capacidades agentivas. Quando um modelo pode navegar em sites, preencher formulários ou executar tarefas em múltiplos passos em nome de um usuário, uma injeção bem-sucedida pode redirecionar toda essa agência para os objetivos de um atacante.

Versões anteriores dos cartões do sistema da Anthropic, incluindo o relatório do Opus 4.7, também apresentavam métricas quantificadas de resistência a injeções. A empresa vem construindo um histórico de publicação consistente desses números, o que torna os dados mais úteis ao longo do tempo como uma linha de tendência, em vez de um único instantâneo.

Por que isso é importante para plataformas de criptomoeda e integradas com IA

A indústria de criptomoedas está até o pescoço em integrações de agentes de IA. Bots de negociação autônomos, gestores de portfólio impulsionados por IA, analisadores de dados on-chain e agentes DeFi que executam transações com base em instruções em linguagem natural estão todos já em funcionamento ou em desenvolvimento em dezenas de protocolos.

Uma taxa de sequestro pré-proteção de 31,5% deve fazer todas as equipes que desenvolvem esses produtos parar para refletir. Se o seu agente de IA navega por fontes de dados externas, analisa conteúdo on-chain de contratos inteligentes potencialmente adversários ou lê conteúdo gerado por usuários em fóruns e plataformas sociais, a injeção de prompt não é um risco teórico. É um risco medido.

A melhoria pós-salvaguarda para cerca de 1% é encorajadora, mas traz uma ressalva. Esse número vem do ambiente de testes da própria Anthropic. Condições reais de implantação, onde agentes interagem com conteúdo web caótico e não controlado e adversários têm incentivos financeiros medidos em milhões, colocarão essas defesas à prova de forma diferente de um exercício de red-team.

Para investidores que avaliam projetos de criptomoedas relacionados à IA, a lacuna de transparência entre os laboratórios é, por si só, um sinal. Protocolos construídos sobre modelos Claude podem, pelo menos, apontar para dados de segurança publicados e explicar suas estratégias de mitigação. Projetos que dependem de modelos de laboratórios que não publicaram dados comparáveis estão pedindo aos usuários que confiem em uma caixa preta.