Principais conclusões
-
Exploração de IA supera a defesa: resultados iniciais mostram uma "lacuna de segurança". O GPT-5.3-Codex da OpenAI alcançou uma taxa de sucesso impressionante de 72,2% no modo de exploração, mas corrigiu apenas cerca de 41,5% desses mesmos bugs corretamente. A IA é atualmente um hacker melhor do que um médico.
-
Apostas do Mundo Real: Ao contrário de benchmarks sintéticos, o EVMbench utiliza código de produção, incluindo cenários complexos da blockchain Tempo. Isso garante que a IA esteja sendo testada em cenários de "fogo real", onde erros de lógica podem levar a perdas de milhões.
-
Um Chamado para Ação Defensivo: Juntamente com o benchmark, a OpenAI comprometeu US$ 10 milhões em créditos de API para pesquisa defensiva em cibersegurança. O objetivo é garantir que, à medida que a IA se torne mais poderosa, os "bons" tenham as ferramentas para construir auditores automatizados impulsionados por IA que consigam acompanhar os atacantes impulsionados por IA.
O que é EVMbench? O novo padrão de IA para segurança de contratos inteligentes
No mundo em rápida evolução do Web3, a segurança já não é mais apenas uma tarefa humana. Em 18 de fevereiro de 2026, a OpenAI e a Paradigm anunciaram o lançamento do EVMbench, um framework de referência de código aberto projetado para avaliar como agentes de IA lidam com o mundo de alta stakes da segurança de contratos inteligentes do ethereum.
À medida que modelos de IA como o GPT-5.3-Codex se tornam cada vez mais capazes de escrever e executar código, a indústria precisa de uma maneira de medir se esses agentes estão se tornando defensores melhores ou atacantes mais perigosos.
Como o EVMbench funciona?
EVMbench não é apenas um simples questionário; é um teste de estresse rigoroso e isolado.() Ele utiliza um conjunto de dados com 120 vulnerabilidades de alta gravidade extraídas de 40 auditorias e competições de segurança do mundo real (como Code4rena).
O framework avalia modelos de IA em três "Modos" distintos que espelham o fluxo de trabalho de um auditor de segurança profissional:
-
Modo de Detecção (O Auditor)
A IA recebe um repositório de contratos inteligentes e tem como tarefa encontrar vulnerabilidades específicas de "referência". O sucesso é medido pela recall — quantos bugs reais a IA detectou em comparação com os especialistas humanos que originalmente auditaram o código?
-
Modo de Patch (O Engenheiro)
Uma vez que um bug é encontrado, o AI pode corrigi-lo? Neste modo, o agente deve modificar o código para remover a vulnerabilidade.() No entanto, há uma armadilha: o "patch" deve preservar a funcionalidade original.() Se o AI corrigir o bug mas quebrar os recursos principais do contrato, ele falha.
-
Modo Exploração (O Red Teamer)
Esta é a configuração mais "realista". Em um ambiente local e isolado de Ethereum (usando uma ferramenta chamada Anvil), a IA deve executar com sucesso um ataque de drenagem de fundos. O benchmark verifica programaticamente se o "atacante" realmente conseguiu mover fundos simulados.
Perguntas frequentes sobre EVMbench
O EVMbench usa dinheiro real ou redes ao vivo?
Não. O EVMbench é executado em um ambiente local e completamente isolado. Ele utiliza uma versão "continerizada" da Máquina Virtual Ethereum, o que significa que agentes de IA podem tentar "esvaziar fundos" sem qualquer risco financeiro ou consequência legal no mundo real.
Por que a OpenAI e a Paradigm lançaram isso?
Criar uma “régua padronizada” para a segurança da IA. Ao disponibilizar o benchmark como código aberto, eles permitem que toda a comunidade cripto rastreie as capacidades da IA e incentivam desenvolvedores a criar ferramentas de auditoria assistidas por IA antes que atores maliciosos possam weaponizar a tecnologia.
Os agentes de IA agora podem substituir auditores humanos de contratos inteligentes?
Ainda não. Embora a IA seja excelente em encontrar bugs específicos, como "agulha em palheiro", quando recebe dicas, ainda enfrenta dificuldades em auditorias abrangentes de ecossistemas inteiros. A supervisão humana ainda é o "chefe final" da segurança de contratos inteligentes.
Qual é o risco "Vibe-Coding" mencionado nesses relatórios?
"Vibe-coding" refere-se a desenvolvedores que usam IA para gerar código rapidamente e implantá-lo sem revisão manual aprofundada. Explorações recentes (como o incidente do Moonwell de US$ 1,78 mi) mostram que, quando humanos "aprovam rapidamente" o código da IA, erros de lógica críticos podem passar despercebidos para o mainnet.
Como posso usar o EVMbench para testar meus próprios agentes de IA?
Todo o framework é de código aberto e disponível no GitHub. Desenvolvedores podem baixar o conjunto de dados, configurar um ambiente local Docker/Anvil e executar seus próprios agentes por meio das pipelines Detect, Patch e Exploit.
