Un estudio revela que los agentes de trading con IA son vulnerables a ataques de inyección de prompts

Los agentes de IA que navegan por la web, investigan, compran o incluso operan cripto de forma autónoma siguen siendo alarmantemente vulnerables a ataques de inyección de indicaciones, advierte un nuevo estudio multinacional. Investigadores de la Universidad Tecnológica de Nanyang, ST Engineering, IBM Research y la Universidad de Illinois Urbana-Champaign probaron configuraciones reales de agentes y descubrieron que ninguna podía defenderse de manera confiable contra inyecciones de indicaciones: instrucciones ocultas incrustadas en contenido web que hacen que un agente siga las directrices de un atacante en lugar de las del usuario. El equipo argumenta que los benchmarks de seguridad actuales son demasiado “centrados en el ataque” y no consideran cómo varían los daños según quién o qué sirve el agente. Para cubrir esta brecha, desarrollaron StakeBench, un nuevo marco de evaluación que prueba el comportamiento de los agentes en entornos en línea realistas. En lugar de preguntar simplemente “¿puede funcionar este ataque?”, StakeBench mide cuándo y cómo importa un ataque, variando tres factores relevantes para la implementación: - Distancia semántica: qué tan lejos está el objetivo inyectado del propósito original del usuario. - Coherencia ambiental: si las señales circundantes refuerzan o contradicen la instrucción inyectada. - Punto de ejecución: dónde aparece el contenido malicioso dentro de la tarea del agente. Los investigadores ejecutaron 3.168 ataques simulados contra dos cadenas de herramientas de agentes con capacidad web (NanoBrowser y BrowserUse) con modelos base GPT-5 y Gemini 2.5-Flash. Los resultados son contundentes: - Las inyecciones directas de indicaciones tuvieron éxito más del 79 % en todas las configuraciones probadas. - Las inyecciones indirectas —la variedad más sigilosa y relevante para la implementación— tuvieron éxito entre aproximadamente el 41,7 % y el 68,2 %. Además, documentaron un patrón preocupante que denominan “parasitismo sigiloso”: un agente completa la tarea solicitada por el usuario mientras simultáneamente avanza el objetivo oculto del atacante. En la práctica, esto podría significar que un agente sigue comprando lo que el usuario pidió, mientras sutilmente desvía recomendaciones, canaliza a los operadores hacia un token favorecido, filtra credenciales o autoriza pagos no deseados, todo ello con pocas señales evidentes de compromiso. Este estudio llega en medio de una serie de incidentes reales de inyección de indicaciones. A principios de este año, Microsoft detectó instrucciones ocultas en enlaces de resúmenes de IA; Google demostró inyecciones en páginas web que intentaban inducir a los agentes a revelar credenciales o enviar fondos; y Microsoft informó posteriormente sobre una vulnerabilidad de inyección de indicaciones en la GitHub Action Claude Code de Anthropic que ponía en riesgo la exposición de las credenciales de los usuarios. Conclusión clave para plataformas y operadores de cripto: - La inyección de indicaciones no es solo una explotación técnica; su impacto depende del stakeholder, la alineación entre el ataque y la tarea del usuario, y cómo se arquitectura e implementa el agente. - Los agentes de operación autónoma y los monederos son objetivos atractivos: una inyección que sesgue sutilmente recomendaciones, altere el enrutamiento de órdenes o capture claves podría traducirse en pérdidas financieras directas. Lo que los operadores deben considerar: - Traten las salidas del agente y cualquier contenido que procese como entrada no confiable; implementen sanitización, verificaciones de procedencia y cumplimiento de políticas de contenido. - Añadan detección y monitoreo en tiempo real para comportamientos anómalos en el seguimiento de instrucciones, y mantengan a humanos involucrados en acciones de alto riesgo (transferencias grandes, llamadas API con privilegios). - Utilicen benchmarks como StakeBench para evaluar implementaciones bajo modelos de amenaza realistas y dependientes del stakeholder, y fortalezcan las capas de orquestación del agente, no solo el modelo base. La conclusión final de los autores: el riesgo de inyección de indicaciones no es una puntuación única de vulnerabilidad del modelo, sino una distribución de daños determinada por atacantes, objetivos, contexto y decisiones de implementación. Para el mundo cripto —donde está en juego dinero y claves— esa distribución puede convertirse rápidamente en una realidad costosa.