Principais conclusões

Exploração de IA supera a defesa: resultados iniciais mostram uma "lacuna de segurança". O GPT-5.3-Codex da OpenAI alcançou uma taxa de sucesso impressionante de 72,2% no modo de exploração, mas corrigiu apenas cerca de 41,5% desses mesmos bugs corretamente. A IA é atualmente um hacker melhor do que um médico.
Apostas do Mundo Real: Ao contrário de benchmarks sintéticos, o EVMbench utiliza código de produção, incluindo cenários complexos da blockchain Tempo. Isso garante que a IA esteja sendo testada em cenários de "fogo real", onde erros de lógica podem levar a perdas de milhões.
Um Chamado para Ação Defensivo: Juntamente com o benchmark, a OpenAI comprometeu US$ 10 milhões em créditos de API para pesquisa defensiva em cibersegurança. O objetivo é garantir que, à medida que a IA se torne mais poderosa, os "bons" tenham as ferramentas para construir auditores automatizados impulsionados por IA que consigam acompanhar os atacantes impulsionados por IA.

O que é EVMbench? O novo padrão de IA para segurança de contratos inteligentes

No mundo em rápida evolução do Web3, a segurança já não é mais apenas uma tarefa humana. Em 18 de fevereiro de 2026, a OpenAI e a Paradigm anunciaram o lançamento do EVMbench, um framework de referência de código aberto projetado para avaliar como agentes de IA lidam com o mundo de alta stakes da segurança de contratos inteligentes do ethereum.

À medida que modelos de IA como o GPT-5.3-Codex se tornam cada vez mais capazes de escrever e executar código, a indústria precisa de uma maneira de medir se esses agentes estão se tornando defensores melhores ou atacantes mais perigosos.

Como o EVMbench funciona?

EVMbench não é apenas um simples questionário; é um teste de estresse rigoroso e isolado.() Ele utiliza um conjunto de dados com 120 vulnerabilidades de alta gravidade extraídas de 40 auditorias e competições de segurança do mundo real (como Code4rena).

O framework avalia modelos de IA em três "Modos" distintos que espelham o fluxo de trabalho de um auditor de segurança profissional:

Modo de Detecção (O Auditor)

A IA recebe um repositório de contratos inteligentes e tem como tarefa encontrar vulnerabilidades específicas de "referência". O sucesso é medido pela recall — quantos bugs reais a IA detectou em comparação com os especialistas humanos que originalmente auditaram o código?

Modo de Patch (O Engenheiro)

Uma vez que um bug é encontrado, o AI pode corrigi-lo? Neste modo, o agente deve modificar o código para remover a vulnerabilidade.() No entanto, há uma armadilha: o "patch" deve preservar a funcionalidade original.() Se o AI corrigir o bug mas quebrar os recursos principais do contrato, ele falha.

Modo Exploração (O Red Teamer)

Esta é a configuração mais "realista". Em um ambiente local e isolado de Ethereum (usando uma ferramenta chamada Anvil), a IA deve executar com sucesso um ataque de drenagem de fundos. O benchmark verifica programaticamente se o "atacante" realmente conseguiu mover fundos simulados.

Perguntas frequentes sobre EVMbench

O EVMbench usa dinheiro real ou redes ao vivo?

Não. O EVMbench é executado em um ambiente local e completamente isolado. Ele utiliza uma versão "continerizada" da Máquina Virtual Ethereum, o que significa que agentes de IA podem tentar "esvaziar fundos" sem qualquer risco financeiro ou consequência legal no mundo real.

Por que a OpenAI e a Paradigm lançaram isso?

Criar uma “régua padronizada” para a segurança da IA. Ao disponibilizar o benchmark como código aberto, eles permitem que toda a comunidade cripto rastreie as capacidades da IA e incentivam desenvolvedores a criar ferramentas de auditoria assistidas por IA antes que atores maliciosos possam weaponizar a tecnologia.

Os agentes de IA agora podem substituir auditores humanos de contratos inteligentes?

Ainda não. Embora a IA seja excelente em encontrar bugs específicos, como "agulha em palheiro", quando recebe dicas, ainda enfrenta dificuldades em auditorias abrangentes de ecossistemas inteiros. A supervisão humana ainda é o "chefe final" da segurança de contratos inteligentes.

Qual é o risco "Vibe-Coding" mencionado nesses relatórios?

"Vibe-coding" refere-se a desenvolvedores que usam IA para gerar código rapidamente e implantá-lo sem revisão manual aprofundada. Explorações recentes (como o incidente do Moonwell de US$ 1,78 mi) mostram que, quando humanos "aprovam rapidamente" o código da IA, erros de lógica críticos podem passar despercebidos para o mainnet.

Como posso usar o EVMbench para testar meus próprios agentes de IA?

Todo o framework é de código aberto e disponível no GitHub. Desenvolvedores podem baixar o conjunto de dados, configurar um ambiente local Docker/Anvil e executar seus próprios agentes por meio das pipelines Detect, Patch e Exploit.

O que é EVMbench? O novo padrão de IA para segurança de contratos inteligentes

Principais conclusões

O que é EVMbench? O novo padrão de IA para segurança de contratos inteligentes

Como o EVMbench funciona?

Modo de Detecção (O Auditor)

Modo de Patch (O Engenheiro)

Modo Exploração (O Red Teamer)

Perguntas frequentes sobre EVMbench

O EVMbench usa dinheiro real ou redes ao vivo?

Por que a OpenAI e a Paradigm lançaram isso?

Os agentes de IA agora podem substituir auditores humanos de contratos inteligentes?

Qual é o risco "Vibe-Coding" mencionado nesses relatórios?

Como posso usar o EVMbench para testar meus próprios agentes de IA?