Pesquisadores do Google e do Meta alertam que agentes de IA devem ser tratados como sistemas não confiáveis

Pesquisadores do Google e do Meta dizem que a robustez do modelo de IA sozinha não pode garantir sistemas agentes.
Onze ataques do mundo real mostram que a injeção de prompt contorna as defesas ao nível do modelo sempre.
Agentes precisam de separação de dados de instrução, sandboxing com privilégios mínimos e controle de fluxo de informações.

Um artigo de pesquisa de cientistas do Google, Meta, UC San Diego e várias universidades adotou uma posição direta que desafia a forma como a indústria atualmente aborda a segurança de agentes de IA.

O artigo, intitulado Agent Security Is a Systems Problem, argumenta que tratar modelos de IA como a camada principal de segurança é fundamentalmente insuficiente. O modelo que impulsiona qualquer agente deve ser tratado como um componente não confiável, da mesma forma que um sistema operacional trata um processo externo, com segurança aplicada ao nível do sistema ao redor dele.

“Os esforços para aumentar a robustez do modelo são insuficientes por si só”, escreveram os pesquisadores. “Devemos complementar os esforços existentes com técnicas do domínio da segurança de sistemas.”

Por que a abordagem atual continua falhando

Os pesquisadores analisaram onze ataques do mundo real contra agentes de IA e encontraram o mesmo padrão todas as vezes. Os desenvolvedores confiaram no modelo de IA para se autoregular. Os atacantes encontraram maneiras de contorná-lo.

Dois casos documentados ilustram o problema. Um ataque ao recurso de memória do ChatGPT permitiu que um atacante injetasse instruções maliciosas por meio de um documento comum, fazendo com que o sistema enviasse continuamente conversas de usuários para um servidor externo por meio de uma URL de imagem invisível.

Um ataque do Claude Code utilizou injeção de prompt oculta dentro de um arquivo de código para extrair chaves API e exfiltrá-las por meio de uma consulta DNS usando o comando ping, que havia sido permitido sem aprovação humana.

Em ambos os casos, o modelo não tinha um mecanismo confiável para interromper o ataque, pois as instruções maliciosas eram indistinguíveis das legítimas ao nível do modelo.

Três Princípios que a Indústria Está Ignorando

Os pesquisadores identificaram três princípios fundamentais de segurança de sistemas, desenvolvidos ao longo de décadas, que as implantações de IA consistentemente falham em implementar:

Instruções e dados de separação: Instruções confiáveis e dados externos não confiáveis fluem pelo mesmo fluxo de tokens sem separação, tornando a injeção de prompt estruturalmente possível.
Sandboxing com privilégio mínimo: os agentes são regularmente implantados com acesso a comandos de shell, sistemas de arquivos e APIs muito além do necessário para qualquer tarefa específica.
Controle de fluxo de informações: Dados sensíveis podem vazar por canais indiretos mesmo quando existem controles de acesso.

O Problema Maior

Agentes de IA não possuem julgamento nem instinto de autoconservação. Eles explorarão todos os diretórios aos quais têm acesso à velocidade da máquina. Eles executarão qualquer instrução que lhes seja enviada, se o sistema permitir.

A infraestrutura de segurança construída em torno de atores humanos nunca foi projetada para isso. Até que seja reconstruída para atores máquinas, toda organização que implantar agentes com acesso a sistemas de produção está assumindo um risco que não pode medir completamente.

Relacionado:Foresight Ventures: Agentes de IA estão ultrapassando os chatbots e entrando no comércio

Disclaimer: As informações apresentadas neste artigo são apenas para fins informativos e educacionais. O artigo não constitui aconselhamento financeiro ou qualquer outro tipo de aconselhamento. A Coin Edition não se responsabiliza por quaisquer perdas decorrentes da utilização de conteúdo, produtos ou serviços mencionados. Recomenda-se aos leitores que exerçam cautela antes de tomar qualquer ação relacionada à empresa.