Investigadores de Microsoft revelaron que anteriormente existía una vulnerabilidad en la GitHub Action de Claude Code de Anthropic, ya reparada. Los atacantes podían ocultar instrucciones maliciosas en issues, pull requests o comentarios de GitHub, induciendo al agente de codificación de IA a leer información sensible durante el proceso CI/CD y exfiltrar credenciales.
El ataque aprovecha el contenido de GitHub
Microsoft indicó en su blog que este tipo de riesgos provienen de que los agentes de IA procesan directamente contenido de texto externo dentro del proceso de desarrollo, y que los flujos de trabajo relacionados suelen tener acceso a datos sensibles como claves API y credenciales de servicios en la nube. Cuando un agente trata entradas no confiables como instrucciones ejecutables, el riesgo se amplifica rápidamente.
Siguiendo el método de prueba de Microsoft, los investigadores configuraron un flujo de trabajo de GitHub y ocultaron instrucciones maliciosas en el contenido devuelto por su dominio controlado, eludiendo así algunas protecciones de Claude. Posteriormente, Claude Code fue inducido a leer un archivo que contenía credenciales sensibles y modificar su contenido para evadir sus propias protecciones y las herramientas de escaneo de claves de GitHub.
Los credenciales pueden divulgarse a través de múltiples canales.
Microsoft indica que los atacantes podrían recuperar esta información teóricamente a través de varios métodos, incluyendo comentarios de issues, registros de flujos de trabajo, solicitudes web o comandos de shell. Los investigadores también activaron intencionadamente flujos de trabajo con usuarios sin permisos de escritura para verificar si el ataque aún sería posible cuando las medidas de limpieza de variables de entorno estén activadas.
Microsoft indicó que iniciaron esta investigación porque previamente habían observado intentos similares de inyección de indicaciones en repositorios públicos relacionados con múltiples proveedores. El punto en común de estos ataques es que el contenido de los issues o pull requests controlados por el atacante es leído por agentes de IA, lo que luego influye en su comportamiento de llamada a herramientas.
Anthropic ya ha reparado en mayo
Claude Code es un agente de codificación de IA lanzado por Anthropic en octubre del año pasado. La herramienta llamó la atención en marzo de este año debido a una filtración accidental de código fuente, que exponía más de 500.000 líneas y provocó un amplio análisis por parte de investigadores y desarrolladores sobre su arquitectura interna.
Microsoft indicó que reveló este problema a Anthropic a través de HackerOne el 29 de abril. Anthropic luego lanzó la versión 2.1.128 de Claude Code el 5 de mayo, completando la reparación.
Microsoft considera que este caso demuestra que, a medida que los agentes de IA se integran en los procesos de desarrollo de software, la entrada de lenguaje natural se está acercando cada vez más a "código ejecutable". En este escenario, los contenidos externos como los issues de GitHub y los comentarios deben considerarse por defecto como entradas no confiables, ya que un solo mensaje cuidadosamente diseñado podría convertirse en una puerta de entrada para obtener credenciales de producción.
