Pesquisadores da Microsoft revelaram que a GitHub Action do Claude Code da Anthropic apresentava anteriormente uma vulnerabilidade já corrigida. Atacantes podiam ocultar instruções maliciosas em issues, pull requests ou comentários do GitHub, induzindo o agente de codificação da IA a ler informações sensíveis durante o processo CI/CD e exfiltrar credenciais.
O ataque utiliza conteúdo do GitHub para disparar
A Microsoft afirmou em seu blog que esse risco surge porque agentes de IA processam diretamente conteúdo de texto externo no fluxo de desenvolvimento, e esses fluxos geralmente têm acesso a dados sensíveis, como chaves de API e credenciais de serviços em nuvem. Quando um agente trata entradas não confiáveis como instruções executáveis, o risco é rapidamente amplificado.
Seguindo o método de teste da Microsoft, os pesquisadores criaram um fluxo de trabalho do GitHub e disfarçaram instruções maliciosas no conteúdo retornado por seu domínio controlado, contornando assim parte das proteções de segurança do Claude. Em seguida, o Claude Code foi induzido a ler arquivos contendo credenciais sensíveis e alterar o conteúdo dessas credenciais para evitar suas próprias proteções e as ferramentas de varredura de chaves do GitHub.
Os certificados podem ser divulgados por diversos canais.
A Microsoft afirmou que os atacantes teoricamente podem recuperar essas informações por meio de várias formas, incluindo comentários de issues, logs de fluxos de trabalho, requisições web ou comandos shell. Os pesquisadores também deliberadamente permitiram que usuários sem permissão de gravação acionassem o fluxo de trabalho, para verificar se o ataque ainda seria possível quando as medidas de limpeza de variáveis de ambiente estivessem ativadas.
A Microsoft afirmou que iniciou este estudo porque anteriormente observou tentativas semelhantes de injeção de prompt em repositórios públicos relacionados a vários fornecedores. O ponto comum desses ataques é que o conteúdo de issues ou pull requests controlados por atacantes é lido por agentes de IA, que são posteriormente influenciados em suas chamadas de ferramentas.
Anthropic corrigiu em maio
Claude Code é um agente de codificação AI lançado pela Anthropic em outubro do ano passado. A ferramenta também chamou atenção em março deste ano devido a um vazamento acidental de código-fonte, com mais de 500 mil linhas expostas, desencadeando análise extensiva por pesquisadores e desenvolvedores sobre sua arquitetura interna.
A Microsoft informou que divulgou o problema à Anthropic por meio do HackerOne em 29 de abril. A Anthropic lançou posteriormente a versão 2.1.128 do Claude Code em 5 de maio para corrigir a questão.
A Microsoft considera que este caso demonstra que, à medida que agentes de IA são integrados ao processo de desenvolvimento de software, as entradas em linguagem natural estão se tornando cada vez mais próximas de "código executável". Nesse cenário, conteúdos externos, como issues do GitHub e comentários, devem ser considerados por padrão como entradas não confiáveis, caso contrário, uma única mensagem cuidadosamente construída pode se tornar uma porta de entrada para credenciais de ambiente de produção.
