Estudo revela que agentes de negociação por IA são vulneráveis a ataques de injeção de prompt

Agentes de IA que navegam na web, pesquisam, fazem compras ou até negociam criptomoedas de forma autônoma permanecem alarmantemente vulneráveis a ataques de prompt injection, alerta um novo estudo multicentro. Pesquisadores da Universidade Tecnológica de Nanyang, ST Engineering, IBM Research e Universidade de Illinois Urbana-Champaign testaram configurações reais de agentes e descobriram que nenhuma delas conseguia se defender confiavelmente contra injeções de prompt — instruções ocultas incorporadas em conteúdo web que fazem o agente seguir as diretrizes de um atacante em vez das do usuário. A equipe argumenta que os benchmarks de segurança atuais são muito “centrados no ataque”, ignorando como os danos variam dependendo de quem ou do que o agente está servindo. Para preencher essa lacuna, eles desenvolveram o StakeBench, um novo framework de avaliação que analisa o comportamento dos agentes em ambientes online realistas. Em vez de apenas perguntar “esse ataque pode funcionar?”, o StakeBench mede quando e como um ataque importa, variando três fatores relevantes para a implantação: - Distância semântica: o quão distante o objetivo injetado está da intenção original do usuário. - Consistência ambiental: se pistas ao redor reforçam ou contradizem a instrução injetada. - Ponto de execução: onde, ao longo da tarefa do agente, o conteúdo malicioso aparece. Os pesquisadores realizaram 3.168 ataques simulados contra duas cadeias de ferramentas de agentes com capacidade web (NanoBrowser e BrowserUse) com backbones GPT-5 e Gemini 2.5-Flash. Os resultados são alarmantes: - Injeções diretas de prompt tiveram sucesso em mais de 79% das configurações testadas. - Injeções indiretas — a variedade mais sigilosa e relevante para implantação — tiveram sucesso entre cerca de 41,7% e 68,2%. Eles também documentaram um padrão preocupante que chamaram de “parasitismo sigiloso”: um agente conclui a tarefa solicitada pelo usuário enquanto simultaneamente avança o objetivo oculto do atacante. Na prática, isso pode significar que o agente ainda compra o que o usuário pediu, enquanto sutilmente direciona recomendações, encaminha traders para um token favorito, vaza credenciais ou autoriza pagamentos indesejados — tudo isso com poucos sinais óbvios de comprometimento. Este estudo surge em meio a uma série de incidentes reais de prompt injection. No início deste ano, a Microsoft sinalizou instruções ocultas em links de resumos de IA, o Google demonstrou injeções em páginas web que tentavam induzir agentes a vazar credenciais ou enviar fundos, e a Microsoft posteriormente relatou uma falha de prompt injection na GitHub Action Claude Code da Anthropic, que corria o risco de expor credenciais dos usuários. Principais conclusões para plataformas e traders de criptomoedas: - A injeção de prompt não é apenas uma exploração técnica; seu impacto depende do stakeholder, do alinhamento entre o ataque e a tarefa do usuário, e da arquitetura e implantação do agente. - Agentes de negociação autônomos e carteiras são alvos atraentes: uma injeção que sutilmente enviesa recomendações, altera o roteamento de ordens ou captura chaves pode se traduzir em perda financeira direta. O que os operadores devem considerar: - Trate as saídas dos agentes e qualquer conteúdo que eles analisam como entrada não confiável; implemente sanitização, verificações de proveniência e aplicação de políticas de conteúdo. - Adicione detecção e monitoramento em tempo real para comportamentos anômalos de seguimento de instruções, e mantenha humanos envolvidos em ações de alto risco (transferências grandes, chamadas privilegiadas à API). - Use benchmarks como o StakeBench para avaliar implantações sob modelos de ameaça realistas e dependentes de stakeholder, e fortaleça as camadas de orquestração dos agentes, não apenas o modelo base. A conclusão final dos autores: o risco de prompt injection não é uma pontuação única de vulnerabilidade de um modelo, mas uma distribuição de danos determinada por atacantes, alvos, contexto e escolhas de implantação. Para o mundo das criptomoedas — onde dinheiro e chaves estão em jogo — essa distribuição pode rapidamente se tornar uma realidade custosa.