Anthropic relata taxa de sequestro de 31,5% para o Agente de Navegador Opus 4.8 antes das salvaguardas

Aponte um red-teamer ao modelo mais recente da Anthropic enquanto ele está navegando na web, e o atacante conseguiu se apropriar dele quase uma em cada três vezes. Essa é a estatística bruta: uma taxa de sucesso de 31,5% em injeção de prompt para o agente de navegação do Claude Opus 4.8 antes das proteções defensivas serem ativadas.

A lacuna de transparência entre laboratórios

A Anthropic divulgou um relatório de segurança de 244 páginas em 28 de maio, abrangendo quatro superfícies agentes distintas: navegação na web, escrita de código, coordenação com outros agentes de IA e interação com ferramentas externas.

A OpenAI relatou apenas uma superfície: conectores. O Google移除了整个主题从其模型卡，并放入了一个单独的安全框架文档。Meta não lançou nenhuma carta de modelo fechada.

Anúncio

A cifra de 31,5% é pré-medidas de segurança, o que significa que representa a suscetibilidade bruta do modelo antes das camadas defensivas da Anthropic entrarem em ação. Cada implantação em produção inclui barreiras, monitoramento e filtragem que reduzem as taxas de exploração no mundo real. Mas conhecer a vulnerabilidade de base é exatamente o tipo de dado que arquitetos de segurança precisam para construir essas barreiras corretamente.

O que o Opus 4.8 faz realmente de diferente

Falsos negativos em erros de codificação, nos quais o modelo não consegue detectar seus próprios erros, caíram de 19,7% para 3,7%. O Opus 4.8 também introduz orquestração dinâmica de múltiplos agentes em escala, coordenando centenas de subagentes simultaneamente para gerenciar grandes projetos de software.

Por que a cripto deve prestar atenção

Uma taxa de sequestro pré-proteção de 31,5% para agentes baseados em navegador deve fazer qualquer um que execute sistemas de IA em cripto parar para pensar. Agentes de navegador são exatamente o tipo de ferramenta que projetos de cripto implantam para painéis de monitoramento, raspagem de dados on-chain, interação com interfaces DEX e execução de negociações por meio de interfaces web.

Injeção de prompt em um agente de navegador significa que um site malicioso, uma resposta de API comprometida ou até mesmo um nome de token cuidadosamente elaborado podem potencialmente redirecionar o comportamento de um agente de IA. Em software tradicional, isso é uma violação de dados. Em cripto, isso é uma carteira esvaziada.

A orquestração de múltiplos agentes adiciona outra camada de complexidade. Quando o Opus 4.8 coordena centenas de subagentes, uma única injeção de prompt bem-sucedida pode potencialmente se espalhar por todo o fluxo de trabalho. Em um contexto cripto, isso é a diferença entre uma transação comprometida e uma falha sistêmica em toda uma operação de negociação automatizada.