Anthropic revela taxa de sequestro de 31,5% para o Agente de Navegador Opus 4.8 antes das salvaguardas

iconCryptoBriefing
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Anthropic relatou uma taxa de sequestro de 31,5% para seu agente de navegador Opus 4.8 antes da aplicação das medidas de segurança. A empresa publicou um cartão de sistema de 244 páginas em 28 de maio, mostrando que as taxas de sucesso caíram para 1% após a adição das proteções. Os resultados destacam a necessidade de segurança robusta em sistemas de IA, especialmente para altcoins a serem observadas que dependem de análise de dados on-chain e negociação autônoma.

Quase um em cada três tentativas de sequestrar o agente de navegador AI mais recente da Anthropic teve sucesso antes das salvaguardas serem ativadas. Isso não é um boato de um canal do Slack da equipe vermelha. É um número que a Anthropic publicou em seu próprio sistema card.

A empresa lançou o cartão do sistema Claude Opus 4.8 em 28 de maio, com 244 páginas e abrangendo quatro superfícies agênticas. A taxa de sequestro pré-proteção para o agente de navegador foi de 31,5%. Para colocar em termos simples: se um ator malicioso direcionasse um ataque de injeção de prompt ao modelo enquanto ele navegava na web, o ataque funcionava aproximadamente um terço das vezes, assumindo que nenhuma camada defensiva estivesse ativa.

A lacuna de transparência nas laboratórios de ponta

A questão é a seguinte: esse valor de 31,5% parece ruim isoladamente. Mas a Anthropic é o único laboratório de ponta que realmente forneceu aos profissionais de segurança um número concreto para trabalhar nesta primavera.

A OpenAI publicou uma divulgação sobre injeção de prompts que abordou apenas uma superfície: conectores. O Google移除u todo o assunto do seu modelo card e o transferiu para um documento de quadro de segurança mais amplo, diluindo efetivamente a especificidade. A Meta não lançou nenhum modelo card fechado.

Anúncio

O que realmente fazem as salvaguardas

A cifra de 31,5% é uma medição pré-proteção, o que é um contexto importante. Ela representa a superfície de vulnerabilidade bruta do modelo antes das defesas em camadas da Anthropic entrarem em ação.

Os testes pós-proteção em um modelo relacionado, o Opus 4.5, mostraram taxas de sucesso de ataque caindo para aproximadamente 1%. Isso representa uma redução de cerca de 97% em relação à linha de base não protegida.

A injeção de prompt permanece o principal desafio de segurança para sistemas de IA com capacidades agentivas. Quando um modelo pode navegar em sites, preencher formulários ou executar tarefas em múltiplos passos em nome de um usuário, uma injeção bem-sucedida pode redirecionar toda essa agência para os objetivos de um atacante.

Versões anteriores dos cartões do sistema da Anthropic, incluindo o relatório do Opus 4.7, também apresentavam métricas quantificadas de resistência a injeções. A empresa vem construindo um histórico de publicação consistente desses números, o que torna os dados mais úteis ao longo do tempo como uma linha de tendência, em vez de um único instantâneo.

Por que isso é importante para plataformas de criptomoeda e integradas com IA

A indústria de criptomoedas está até o pescoço em integrações de agentes de IA. Bots de negociação autônomos, gestores de portfólio impulsionados por IA, analisadores de dados on-chain e agentes DeFi que executam transações com base em instruções em linguagem natural estão todos já em funcionamento ou em desenvolvimento em dezenas de protocolos.

Uma taxa de sequestro pré-proteção de 31,5% deve fazer todas as equipes que desenvolvem esses produtos parar para refletir. Se o seu agente de IA navega por fontes de dados externas, analisa conteúdo on-chain de contratos inteligentes potencialmente adversários ou lê conteúdo gerado por usuários em fóruns e plataformas sociais, a injeção de prompt não é um risco teórico. É um risco medido.

A melhoria pós-salvaguarda para cerca de 1% é encorajadora, mas traz uma ressalva. Esse número vem do ambiente de testes da própria Anthropic. Condições reais de implantação, onde agentes interagem com conteúdo web caótico e não controlado e adversários têm incentivos financeiros medidos em milhões, colocarão essas defesas à prova de forma diferente de um exercício de red-team.

Para investidores que avaliam projetos de criptomoedas relacionados à IA, a lacuna de transparência entre os laboratórios é, por si só, um sinal. Protocolos construídos sobre modelos Claude podem, pelo menos, apontar para dados de segurança publicados e explicar suas estratégias de mitigação. Projetos que dependem de modelos de laboratórios que não publicaram dados comparáveis estão pedindo aos usuários que confiem em uma caixa preta.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.