Estudo mostra que agentes de IA ainda são vulneráveis a ataques de injeção de prompt

Relatório do CoinNews:

À medida que agentes de IA capazes de se conectar à internet, buscar informações, fazer compras e até executar transações criptográficas estão sendo implementados mais rapidamente, um estudo recente mostra que esses sistemas ainda carecem de proteção estável contra ataques de injeção de prompts.

A pesquisa foi realizada por equipes da Universidade Tecnológica de Nanyang, ST Engineering, IBM Research e da Universidade de Illinois em Urbana-Champaign. Os pesquisadores afirmaram que, nas amostras testadas, nenhum agente de IA conseguiu resistir consistentemente a esse tipo de ataque.

Taxa de sucesso do ataque direto superior a 79%

Prompt injection refers to attackers embedding hidden instructions within web pages, text, or other external content to induce AI agents to deviate from the user's original goal and instead perform actions set by the attacker.

Para se aproximar do ambiente de uso real, a equipe de pesquisa desenvolveu o benchmark StakeBench, destinado a avaliar o desempenho de agentes de IA sob ataques em tarefas online. Os testes abrangem dois frameworks de agentes, NanoBrowser e BrowserUse, e incorporam 3.168 simulações de ataque com GPT-5 e Gemini 2.5-Flash.

O framework de teste inclui NanoBrowser e BrowserUse
Os modelos de teste incluem GPT-5 e Gemini 2.5-Flash
A taxa de sucesso dos ataques diretos supera 79% em todas as configurações

Instruções ocultas na página ainda podem ser executadas

Os resultados do estudo mostram que a taxa de sucesso de ataques indiretos incorporados ao conteúdo da página varia de 41,67% a 68,16%. Esse tipo de ataque se aproxima mais de cenários de implantação real, pois o atacante não precisa ter acesso direto à entrada do usuário; basta esconder instruções no conteúdo da página para potencialmente influenciar as decisões futuras do agente.

A equipe analisou três fatores principais: a distância semântica entre o alvo de injeção e a tarefa do usuário, se as pistas do ambiente eram consistentes e em qual estágio do fluxo o agente foi exposto ao conteúdo malicioso pela primeira vez. O estudo concluiu que esses fatores afetam a eficácia do ataque.

As empresas de tecnologia já alertaram várias vezes anteriormente

Antes do lançamento deste estudo, os riscos relacionados já haviam sido mencionados várias vezes por grandes empresas de tecnologia. Pesquisadores da Microsoft alertaram em fevereiro deste ano que instruções ocultas em links de resumos de IA poderiam afetar o comportamento de chatbots. O Google também documentou, em abril, casos de injeção de prompts escondidos em páginas da web, onde ataques tentavam induzir agentes de IA a revelar credenciais ou iniciar pagamentos.

A Microsoft também revelou posteriormente que a GitHub Action Claude Code da Anthropic apresenta uma vulnerabilidade de injeção de prompt que pode levar à exposição de credenciais de usuários.

O estudo também menciona um cenário chamado “parasitismo oculto”, no qual o agente aparentemente conclui a tarefa do usuário, mas simultaneamente avança secretamente os objetivos do atacante. Por exemplo, em um cenário de recomendação de produtos, o sistema pode parecer fornecer sugestões normais, mas silenciosamente direcionar o usuário para produtos específicos.