Un estudio revela que los agentes de IA para criptomonedas son vulnerables a ataques de inyección de instrucciones

A medida que los agentes de IA —los bots autónomos que pueden navegar, investigar, comprar e incluso operar con cripto— pasan de los laboratorios a sistemas del mundo real, los investigadores advierten que persiste un problema complejo: los ataques de inyección de indicaciones. Un equipo interinstitucional de la Universidad Tecnológica de Nanyang, ST Engineering, IBM Research y la Universidad de Illinois en Urbana-Champaign informa que los agentes actuales siguen siendo altamente vulnerables a estos ataques, sin que ninguna configuración probada muestre resistencia consistente. ¿Qué son las inyecciones de indicaciones? - La inyección de indicaciones ocurre cuando un atacante oculta instrucciones dentro del contenido que lee un agente (páginas web, enlaces u otros documentos). El agente puede entonces seguir las instrucciones ocultas del atacante en lugar de la intención del usuario —un riesgo claro cuando se permiten a los agentes actuar de forma autónoma en tareas financieras, como ejecutar operaciones o interactuar con monederos y exchanges. Lo que hizo el estudio - Para evaluar mejor el riesgo en el mundo real, los investigadores crearon StakeBench, un benchmark que somete a los agentes de IA a inyecciones de indicaciones en entornos en línea realistas. StakeBench se enfoca en lo que el equipo llama Inyección Indirecta de Indicaciones: el canal relevante para la implementación donde las instrucciones maliciosas se incrustan en el entorno que el agente encuentra. - StakeBench examina tres factores clave que modifican el impacto del ataque: 1. La distancia semántica entre el objetivo inyectado y la intención original del usuario (cuán similar o diferente es el objetivo oculto). 2. La coherencia de las señales ambientales circundantes (si el contenido inyectado se integra naturalmente en la página o fuente). 3. El momento en la trayectoria de ejecución del agente en que este encuentra por primera vez el contenido inyectado. Lo que probaron - El equipo ejecutó 3.168 ataques simulados utilizando dos marcos de agentes (NanoBrowser y BrowserUse) combinados con GPT-5 y Gemini 2.5-Flash. Hallazgos clave - Los ataques de inyección directa tuvieron éxito más del 79 % del tiempo en todos los entornos probados. - Las tasas de éxito de las inyecciones indirectas variaron entre el 41,67 % y el 68,16 %, según el contexto y los tres factores anteriores. - Los investigadores destacan un fenómeno al que llaman “parasitismo sigiloso”, donde el agente aún realiza la tarea solicitada por el usuario pero simultáneamente avanza el objetivo del atacante —por ejemplo, guiando sutilmente las recomendaciones. En escenarios cripto, esto podría significar desviar a un inversionista hacia un token específico o ejecutar operaciones que beneficien al atacante sin señales evidentes de compromiso. Por qué esto importa para cripto - Los agentes autónomos se utilizan cada vez más para analizar datos de mercado, ejecutar operaciones, gestionar monederos e interactuar con protocolos DeFi. Las vulnerabilidades de inyección de indicaciones crean así superficies de ataque claras: desde recomendaciones sesgadas de tokens y reequilibrado manipulado de carteras hasta filtración de credenciales o transacciones no autorizadas. - Los investigadores enfatizan que el riesgo de inyección de indicaciones es “dependiente de la víctima”: el mismo exploit puede tener consecuencias muy distintas según quién o qué sea el agente que actúa, y su impacto está moldeado por la alineación semántica y la arquitectura del sistema —no solo por el modelo de lenguaje subyacente. Contexto e incidentes previos - El estudio sigue una serie de divulgaciones reales: Microsoft advirtió en febrero sobre instrucciones ocultas en enlaces de resúmenes de IA; Google describió en abril inyecciones de indicaciones en páginas web que intentaban hacer que los agentes filtraran credenciales o enviaran pagos; y Microsoft reveló recientemente una falla de inyección de indicaciones en la GitHub Action de Claude Code de Anthropic que podría haber expuesto credenciales de usuarios. Conclusión - La seguridad contra inyecciones de indicaciones no es una propiedad única del modelo, sino una distribución multidimensional del daño influenciada por las partes interesadas, la alineación de tareas y el contexto de implementación. Para las plataformas cripto y los operadores que confían en agentes autónomos, esta investigación es una llamada de alerta: se necesitan evaluaciones rigurosas y conscientes del contexto (como StakeBench) y defensas más sólidas antes de entregar a estos agentes el control sobre fondos o credenciales de monederos.