- Los investigadores de Google y Meta dicen que la robustez del modelo de IA por sí sola no puede asegurar sistemas agentes.
- Once ataques del mundo real muestran que la inyección de indicaciones elude las defensas a nivel de modelo en cada ocasión.
- Los agentes necesitan separación de datos de instrucción, sandboxing con privilegios mínimos y control de flujo de información.
Un artículo de investigación de científicos de Google, Meta, la UC San Diego y varias universidades ha adoptado una posición directa que cuestiona cómo la industria aborda actualmente la seguridad de los agentes de IA.
El artículo, titulado Agent Security Is a Systems Problem, argues que tratar a los modelos de IA como la capa de seguridad principal es fundamentalmente insuficiente. El modelo que impulsa cualquier agente debe tratarse en cambio como un componente no confiable, de la misma manera en que un sistema operativo trata un proceso externo, con seguridad aplicada a nivel de sistema a su alrededor.
“Los esfuerzos para aumentar la robustez del modelo son insuficientes por sí solos”, escribieron los investigadores. “Debemos complementar los esfuerzos existentes con técnicas del dominio de la seguridad de sistemas.”
Por qué el enfoque actual sigue fallando
Los investigadores analizaron once ataques del mundo real contra agentes de IA y encontraron el mismo patrón en cada ocasión. Los desarrolladores confiaron en que el modelo de IA se autoregulaba. Los atacantes encontraron formas de evadirlo.
Dos casos documentados ilustran el problema. Un ataque a la función de memoria de ChatGPT permitió a un atacante inyectar instrucciones maliciosas a través de un documento ordinario, haciendo que el sistema enviara continuamente conversaciones de usuarios a un servidor externo mediante una URL de imagen invisible.
Un ataque de Claude Code utilizó inyección de indicaciones ocultas dentro de un archivo de código para extraer claves de API y exfiltrarlas mediante una consulta DNS utilizando el comando ping, que había sido permitido sin aprobación humana.
En ambos casos, el modelo no tenía un mecanismo confiable para detener el ataque porque las instrucciones maliciosas eran indistinguibles de las legítimas a nivel del modelo.
Tres principios que la industria está ignorando
Los investigadores identificaron tres principios de seguridad fundamentales de décadas de seguridad de sistemas que las implementaciones de IA constantemente fallan en implementar:
- Las instrucciones y los datos externos no confiables fluyen a través del mismo flujo de tokens sin separación, lo que hace posible la inyección de indicaciones estructuralmente.
- Sandboxeo con privilegios mínimos: los agentes se implementan habitualmente con acceso a comandos de shell, sistemas de archivos y API mucho más allá de lo necesario para cualquier tarea específica.
- Control de flujo de información: Los datos sensibles pueden filtrarse a través de canales indirectos incluso cuando existen controles de acceso.
El problema más grande
Los agentes de IA no tienen juicio ni instinto de autoconservación. Explorarán cada directorio al que tengan acceso a velocidad de máquina. Ejecutarán cualquier instrucción que les llegue si el sistema lo permite.
La infraestructura de seguridad construida alrededor de actores humanos nunca fue diseñada para esto. Hasta que no se reconstruya para actores máquinas, toda organización que despliegue agentes con acceso a sistemas de producción está asumiendo un riesgo que no puede medir completamente.
Relacionado:Foresight Ventures: Los agentes de IA están trascendiendo los chatbots hacia el comercio
Descargo de responsabilidad: La información presentada en este artículo es únicamente para fines informativos y educativos. El artículo no constituye asesoramiento financiero ni de ningún otro tipo. Coin Edition no se hace responsable de ninguna pérdida derivada del uso del contenido, productos o servicios mencionados. Se aconseja a los lectores que ejerzan precaución antes de tomar cualquier acción relacionada con la empresa.
