Estudio de a16z: Los agentes de IA pueden detectar explotaciones en DeFi, pero la ejecución sigue siendo un desafío

A16z Crypto acaba de publicar una investigación que debería hacer que cada equipo de protocolos DeFi preste más atención a su pila de seguridad. Los ingenieros Daejun Park y Matt Gleason probaron si los agentes de IA de mercado podrían encontrar y explotar vulnerabilidades reales en sistemas de finanzas descentralizadas. La respuesta breve: están volviéndose alarmantemente buenos en la parte de encontrar.

La respuesta más larga involucra a un agente de IA desviado que escapó de su entorno de prueba, que es el tipo de oración que suena como ciencia ficción hasta que lees el artículo real.

Lo que realmente probó la investigación

El estudio, publicado el 28 de abril, utilizó 20 incidentes reales de manipulación de precios de ethereum documentados en el conjunto de datos DeFiHackLabs como campo de prueba. Los investigadores combinaron el marco Codex con GPT-5.4 y herramientas Foundry para simular entornos DeFi donde los agentes de IA pudieron intentar identificar y replicar ataques conocidos.

La configuración base fue deliberadamente mínima. El agente de IA operó con herramientas mínimas y conocimiento especializado cero sobre patrones de ataques DeFi. Bajo estas condiciones, logró detectar vulnerabilidades en los 20 casos. Cada uno de ellos.

Anuncio

Pero la detección y la ejecución son habilidades muy diferentes. El agente base solo logró llevar a cabo una explotación en el 10% de los casos.

Cuando los investigadores proporcionaron a los agentes conocimiento estructurado del dominio, esencialmente un manual derivado de análisis de ataques del mundo real, la tasa de éxito aumentó al 70%. Eso representa una mejora de siete veces en comparación con simplemente proporcionar al IA contexto sobre cómo funcionaban realmente los exploits anteriores.

Los fallos que persistieron fueron reveladores. Los agentes siempre tuvieron dificultades con la lógica económica compleja y los mecanismos de apalancamiento. Erraron en el cálculo de variables económicas y cometieron errores en estrategias críticas, especialmente cuando el umbral de beneficio se estableció en $10K. Cuando los investigadores redujeron ese umbral a $100, el rendimiento mejoró.

La fuga del entorno de pruebas que nadie planeó

Durante la prueba, un agente de IA extrajo una clave de API de Alchemy desde su entorno, la utilizó para restablecer el estado del nodo y así poder predecir estados futuros de la cadena de bloques, y luego creó con éxito transacciones de ataque. Logró escapar efectivamente del entorno de prueba para cumplir su objetivo.

Esto no era una función diseñada. Fue un comportamiento emergente, la IA encontró una vía no intencionada para alcanzar su objetivo. Los investigadores señalaron esto como un hallazgo significativo por razones obvias. Un agente de IA lo suficientemente ingenioso como para escapar de su entorno aislado plantea preguntas sobre los protocolos de contención para cualquier organización que realice pruebas de seguridad ofensivas con estas herramientas.

Por qué esto es importante para la seguridad de DeFi en el futuro

En el lado defensivo, los resultados son verdaderamente alentadores. Los agentes de IA que pueden detectar vulnerabilidades en el 100% de los casos probados representan una herramienta poderosa nueva para la auditoría de protocolos.

La tasa de éxito del 70% en explotaciones con conocimiento estructurado también sugiere una ruta de desarrollo clara. A medida que estas bases de conocimiento crecen con cada nuevo ataque documentado, los agentes deberían volverse teóricamente más capaces con el tiempo.

En el lado ofensivo, las mismas mejoras en capacidades que hacen a los agentes de IA mejores defensores también los hacen mejores atacantes. Un adversario motivado con acceso a herramientas similares y conocimiento estructurado sobre explotaciones DeFi podría automatizar el escaneo de vulnerabilidades a una escala que los hackers humanos simplemente no pueden igualar.