Un estudio muestra que los agentes de IA siguen siendo vulnerables a ataques de inyección de instrucciones

CoinDesk informa:

A medida que los agentes de IA capaces de conectarse por sí mismos, buscar información, comprar e incluso realizar transacciones criptográficas se implementan más rápidamente, un estudio reciente muestra que estos sistemas aún carecen de protección estable contra ataques de inyección de indicaciones.

El estudio fue realizado por equipos de la Universidad Tecnológica de Nanyang, ST Engineering, IBM Research y la Universidad de Illinois en Urbana-Champaign. Los investigadores indicaron que, en las muestras probadas, ningún agente de IA pudo resistir de forma constante este tipo de ataques.

Tasa de éxito del ataque directo superior al 79%

La inyección de indicaciones consiste en que un atacante incrusta instrucciones ocultas en páginas web, textos u otro contenido externo para inducir a agentes de IA a desviarse del objetivo original del usuario y ejecutar en su lugar acciones establecidas por el atacante.

Para acercarse más al entorno de uso real, el equipo de investigación desarrolló un benchmark llamado StakeBench para evaluar el rendimiento de los agentes de IA bajo ataques en tareas en línea. La prueba cubre dos marcos de agentes: NanoBrowser y BrowserUse, y realiza 3,168 simulaciones de ataques combinando GPT-5 y Gemini 2.5-Flash.

El marco de prueba incluye NanoBrowser y BrowserUse
El modelo de prueba incluye GPT-5 y Gemini 2.5-Flash
La tasa de éxito de los ataques directos supera el 79% en todas las configuraciones.

Las instrucciones ocultas en la página aún pueden aplicarse

Los resultados del estudio muestran que la tasa de éxito de los ataques indirectos incrustados en el contenido web oscila entre el 41,67% y el 68,16%. Este tipo de ataques se acerca más a escenarios de implementación real, ya que los atacantes no necesitan interactuar directamente con la entrada del usuario; solo deben ocultar instrucciones dentro del contenido web para influir en las decisiones posteriores del agente.

El equipo analizó tres factores clave: la distancia semántica entre el objetivo de inyección y la tarea del usuario, si las pistas del entorno eran coherentes, y en qué fase del proceso el agente entró en contacto por primera vez con contenido malicioso. El estudio concluye que estos factores influyen en si el ataque tiene éxito.

Las empresas tecnológicas ya habían advertido en múltiples ocasiones.

Antes de la publicación de este estudio, los riesgos relacionados ya habían sido mencionados varias veces por grandes empresas tecnológicas. En febrero de este año, investigadores de Microsoft advirtieron que las instrucciones ocultas en los enlaces de resúmenes de IA podrían afectar el comportamiento de los chatbots. En abril, Google también documentó casos de inyección de indicaciones ocultas en páginas web, donde los ataques intentaban inducir a agentes de IA a revelar credenciales o iniciar pagos.

Microsoft también reveló posteriormente que la GitHub Action de Claude Code de Anthropic presenta una vulnerabilidad de inyección de indicaciones que podría exponer las credenciales de los usuarios.

El estudio también menciona un escenario llamado "parasitismo oculto", en el que el agente aparentemente completa la tarea del usuario, pero simultáneamente avanza en secreto los objetivos del atacante. Por ejemplo, en un contexto de recomendación de productos, el sistema podría parecer ofrecer sugerencias normales, pero desviar silenciosamente al usuario hacia productos específicos.