Основные выводы

Эксплуатация ИИ опережает защиту: ранние результаты показывают «разрыв в безопасности». GPT-5.3-Codex от OpenAI показал поразительный уровень успешности в 72,2% в режиме эксплуатации, но исправил лишь около 41,5% тех же ошибок. В настоящее время ИИ является лучшим хакером, чем врачом.
Реальные ставки: В отличие от синтетических тестов, EVMbench использует код промышленного уровня, включая сложные сценарии из блокчейна Tempo. Это гарантирует, что ИИ тестируется на реальных сценариях, где ошибки логики могут привести к потерям в миллионы долларов.
Защитный призыв к действию: Вместе с эталоном OpenAI выделила 10 миллионов долларов в виде кредитов на API для исследований в области оборонительной кибербезопасности. Цель — обеспечить, чтобы по мере усиления ИИ «хорошие парни» имели инструменты для создания автоматизированных аудиторов на базе ИИ, способных угнаться за атакующими, использующими ИИ.

Что такое EVMbench? Новый ИИ-стандарт для безопасности смарт-контрактов

В быстро развивающемся мире Web3 безопасность больше не является исключительно человеческим делом. 18 февраля 2026 года OpenAI и Paradigm объявили о запуске EVMbench — открытой платформы для тестирования, предназначенной для оценки того, как ИИ-агенты справляются с высокорисковым миром смарт-контрактов ethereum.

По мере того как ИИ-модели, такие как GPT-5.3-Codex, становятся все более способными писать и выполнять код, отрасли необходим способ измерения, становятся ли эти агенты лучшими защитниками или более опасными нападающими.

Как работает EVMbench?

EVMbench — это не просто простой тест; это строгий, изолированный стресс-тест.() Он использует набор данных из 120 уязвимостей высокой степени серьезности, извлеченных из 40 реальных аудитов и соревнований по безопасности (таких как Code4rena).

Фреймворк оценивает модели ИИ в трех различных «режимах», повторяющих рабочий процесс профессионального аудитора безопасности:

Режим обнаружения (Аудитор)

Искусственный интеллект получает репозиторий смарт-контрактов и должен найти конкретные «эталонные» уязвимости. Успех измеряется по полноте — сколько реальных ошибок обнаружил ИИ по сравнению с человеческими экспертами, первоначально проводившими аудит кода?

Режим исправления (Инженер)

Как только обнаружена ошибка, может ли ИИ её исправить? В этом режиме агент должен изменить код, чтобы устранить уязвимость.() Однако есть подвох: «исправление» должно сохранять исходную функциональность.() Если ИИ исправляет ошибку, но ломает основные функции контракта, он проваливается.

Режим эксплуатации (Красная команда)

Это наиболее «реалистичный» режим. В локальной, изолированной среде Ethereum (с использованием инструмента под названием Anvil) ИИ должен успешно осуществить атаку на изъятие средств. Бенчмарк программно проверяет, действительно ли «атакующий» смог переместить симулированные средства.

Часто задаваемые вопросы по EVMbench

Использует ли EVMbench реальные деньги или живые сети?

Нет. EVMbench работает в полностью изолированной локальной среде. Он использует «контейнеризованную» версию Ethereum Virtual Machine, что означает, что AI-агенты могут пытаться «выкачать средства» без какого-либо реального финансового риска или правовых последствий.

Почему OpenAI и Paradigm выпустили это?

Создать «стандартизированный эталон» для безопасности ИИ. Открыв исходный код эталона, они позволяют всему криптовалютному сообществу отслеживать возможности ИИ и поощряют разработчиков создавать инструменты аудита с использованием ИИ до того, как вредоносные акторы смогут использовать эту технологию в злонамеренных целях.

Могут ли ИИ-агенты теперь заменить человеческих аудиторов смарт-контрактов?

Еще нет. Хотя ИИ отлично справляется с поиском конкретных «иголок в стоге сена» при наличии подсказок, он все еще испытывает трудности с комплексной проверкой целых экосистем. Человеческий контроль остается «финальным боссом» безопасности смарт-контрактов.

Что такое риск «Vibe-Coding», упомянутый в этих отчетах?

«Vibe-coding» означает, что разработчики используют ИИ для быстрого генерирования кода и развертывания его без глубокого ручного анализа. Последние инциденты (например, инцидент с Moonwell на сумму $1,78 млн) показывают, что когда люди слишком быстро «утверждают» код ИИ, критические ошибки логики могут попасть на мейннет.

Как я могу использовать EVMbench для тестирования моих собственных ИИ-агентов?

Вся система является открытой и доступна на GitHub. Разработчики могут скачать набор данных, настроить локальную среду Docker/Anvil и запустить свои собственные агенты через конвейеры Detect, Patch и Exploit.

Что такое EVMbench? Новый ИИ-стандарт для безопасности смарт-контрактов

Основные выводы

Что такое EVMbench? Новый ИИ-стандарт для безопасности смарт-контрактов

Как работает EVMbench?

Режим обнаружения (Аудитор)

Режим исправления (Инженер)

Режим эксплуатации (Красная команда)

Часто задаваемые вопросы по EVMbench

Использует ли EVMbench реальные деньги или живые сети?

Почему OpenAI и Paradigm выпустили это?

Могут ли ИИ-агенты теперь заменить человеческих аудиторов смарт-контрактов?

Что такое риск «Vibe-Coding», упомянутый в этих отчетах?

Как я могу использовать EVMbench для тестирования моих собственных ИИ-агентов?