Principales conclusiones
-
La explotación de IA supera a la defensa: los resultados iniciales muestran una "brecha de seguridad". GPT-5.3-Codex de OpenAI logró una sorprendente tasa de éxito del 72,2% en modo explotación, pero solo corrigió correctamente alrededor del 41,5% de esos mismos errores. La IA es actualmente un mejor hacker que un médico.
-
Apuestas del mundo real: A diferencia de los índices sintéticos, EVMbench utiliza código de producción, incluyendo escenarios complejos de la cadena de bloques Tempo. Esto asegura que la IA se esté probando en escenarios de "combate real" donde los errores lógicos pueden provocar pérdidas de millones.
-
Una llamada a la acción defensiva: junto con el punto de referencia, OpenAI comprometió $10 millones en créditos de API para investigación defensiva en ciberseguridad. El objetivo es garantizar que, a medida que la IA se vuelva más poderosa, los "buenos" cuenten con las herramientas para desarrollar auditores automatizados impulsados por IA que puedan mantener el ritmo de los atacantes impulsados por IA.
¿Qué es EVMbench? La nueva norma de IA para la seguridad de contratos inteligentes
En el mundo en rápida evolución de Web3, la seguridad ya no es solo un esfuerzo humano. El 18 de febrero de 2026, OpenAI y Paradigm anunciaron el lanzamiento de EVMbench, un marco de referencia de código abierto diseñado para evaluar cómo los agentes de IA manejan el mundo de alto riesgo de la seguridad de contratos inteligentes de ethereum.
A medida que modelos de IA como GPT-5.3-Codex se vuelven cada vez más capaces de escribir y ejecutar código, la industria necesita una forma de medir si estos agentes se están volviendo defensores mejores o atacantes más peligrosos.
¿Cómo funciona EVMbench?
EVMbench no es solo un simple cuestionario; es una prueba de estrés rigurosa y en un entorno aislado.() Utiliza un conjunto de datos de 120 vulnerabilidades de alta gravedad obtenidas de 40 auditorías y competencias de seguridad del mundo real (como Code4rena).
El marco evalúa modelos de IA en tres "Modos" distintos que reflejan el flujo de trabajo de un auditor de seguridad profesional:
-
Modo de detección (El auditor)
Se proporciona al AI un repositorio de contratos inteligentes y se le encomienda encontrar vulnerabilidades específicas de "verdad fundamental". El éxito se mide mediante la recuperación: ¿cuántos errores reales detectó el AI en comparación con los expertos humanos que originalmente auditaron el código?
-
Modo de parche (El ingeniero)
Una vez que se encuentra un error, ¿puede la IA corregirlo? En este modo, el agente debe modificar el código para eliminar la vulnerabilidad.() Sin embargo, hay un detalle: el "parche" debe conservar la funcionalidad original.() Si la IA corrige el error pero rompe las funciones principales del contrato, falla.
-
Modo de explotación (El miembro del equipo rojo)
Esta es la configuración más "realista". En un entorno local y aislado de Ethereum (utilizando una herramienta llamada Anvil), la IA debe ejecutar con éxito un ataque de drenaje de fondos. La prueba verifica programáticamente si el "atacante" logró mover fondos simulados.
Preguntas frecuentes sobre EVMbench
¿EVMbench utiliza dinero real o redes en vivo?
No. EVMbench se ejecuta en un entorno local completamente aislado. Utiliza una versión "contenerizada" de la Máquina Virtual de Ethereum, lo que significa que los agentes de IA pueden intentar "drenar fondos" sin ningún riesgo financiero ni consecuencias legales en el mundo real.
¿Por qué OpenAI y Paradigm lanzaron esto?
Crear una "regla estandarizada" para la seguridad de la IA. Al abrir el código de referencia, permiten que toda la comunidad cripto rastree las capacidades de la IA y fomentan que los desarrolladores construyan herramientas de auditoría asistidas por IA antes de que actores maliciosos puedan armar la tecnología.
¿Pueden los agentes de IA reemplazar ahora a los auditores humanos de contratos inteligentes?
Aún no. Aunque la IA es excelente para encontrar errores específicos "como buscar una aguja en un pajar" cuando recibe pistas, aún tiene dificultades con auditorías completas de ecosistemas enteros. La supervisión humana sigue siendo el "jefe final" de la seguridad de los contratos inteligentes.
¿Qué es el riesgo de "Vibe-Coding" mencionado en estos informes?
"Vibe-coding" se refiere a desarrolladores que usan IA para generar código rápidamente y desplegarlo sin una revisión manual profunda. Recientes explotaciones (como el incidente de Moonwell de $1.78M) muestran que cuando los humanos "sello de goma" el código de IA demasiado rápido, errores críticos en la lógica pueden pasar desapercibidos hasta el mainnet.
¿Cómo puedo usar EVMbench para probar mis propios agentes de IA?
Todo el marco es de código abierto y está disponible en GitHub. Los desarrolladores pueden descargar el conjunto de datos, configurar un entorno local Docker/Anvil y ejecutar sus propios agentes a través de las canalizaciones Detect, Patch y Exploit.
