Что такое EVMbench? Новый ИИ-стандарт для безопасности смарт-контрактов

iconKuCoin News
Поделиться
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Основные выводы

  • Эксплуатация ИИ опережает защиту: ранние результаты показывают «разрыв в безопасности». GPT-5.3-Codex от OpenAI показал поразительный уровень успешности в 72,2% в режиме эксплуатации, но исправил лишь около 41,5% тех же ошибок. В настоящее время ИИ является лучшим хакером, чем врачом.
  • Реальные ставки: В отличие от синтетических тестов, EVMbench использует код промышленного уровня, включая сложные сценарии из блокчейна Tempo. Это гарантирует, что ИИ тестируется на реальных сценариях, где ошибки логики могут привести к потерям в миллионы долларов.
  • Защитный призыв к действию: Вместе с эталоном OpenAI выделила 10 миллионов долларов в виде кредитов на API для исследований в области оборонительной кибербезопасности. Цель — обеспечить, чтобы по мере усиления ИИ «хорошие парни» имели инструменты для создания автоматизированных аудиторов на базе ИИ, способных угнаться за атакующими, использующими ИИ.

Что такое EVMbench? Новый ИИ-стандарт для безопасности смарт-контрактов

В быстро развивающемся мире Web3 безопасность больше не является исключительно человеческим делом. 18 февраля 2026 года OpenAI и Paradigm объявили о запуске EVMbench — открытой платформы для тестирования, предназначенной для оценки того, как ИИ-агенты справляются с высокорисковым миром смарт-контрактов ethereum.
По мере того как ИИ-модели, такие как GPT-5.3-Codex, становятся все более способными писать и выполнять код, отрасли необходим способ измерения, становятся ли эти агенты лучшими защитниками или более опасными нападающими.

Как работает EVMbench?

EVMbench — это не просто простой тест; это строгий, изолированный стресс-тест.() Он использует набор данных из 120 уязвимостей высокой степени серьезности, извлеченных из 40 реальных аудитов и соревнований по безопасности (таких как Code4rena).
Фреймворк оценивает модели ИИ в трех различных «режимах», повторяющих рабочий процесс профессионального аудитора безопасности:
  1. Режим обнаружения (Аудитор)

Искусственный интеллект получает репозиторий смарт-контрактов и должен найти конкретные «эталонные» уязвимости. Успех измеряется по полноте — сколько реальных ошибок обнаружил ИИ по сравнению с человеческими экспертами, первоначально проводившими аудит кода?
  1. Режим исправления (Инженер)

Как только обнаружена ошибка, может ли ИИ её исправить? В этом режиме агент должен изменить код, чтобы устранить уязвимость.() Однако есть подвох: «исправление» должно сохранять исходную функциональность.() Если ИИ исправляет ошибку, но ломает основные функции контракта, он проваливается.
  1. Режим эксплуатации (Красная команда)

Это наиболее «реалистичный» режим. В локальной, изолированной среде Ethereum (с использованием инструмента под названием Anvil) ИИ должен успешно осуществить атаку на изъятие средств. Бенчмарк программно проверяет, действительно ли «атакующий» смог переместить симулированные средства.

Часто задаваемые вопросы по EVMbench

Использует ли EVMbench реальные деньги или живые сети?

Нет. EVMbench работает в полностью изолированной локальной среде. Он использует «контейнеризованную» версию Ethereum Virtual Machine, что означает, что AI-агенты могут пытаться «выкачать средства» без какого-либо реального финансового риска или правовых последствий.

Почему OpenAI и Paradigm выпустили это?

Создать «стандартизированный эталон» для безопасности ИИ. Открыв исходный код эталона, они позволяют всему криптовалютному сообществу отслеживать возможности ИИ и поощряют разработчиков создавать инструменты аудита с использованием ИИ до того, как вредоносные акторы смогут использовать эту технологию в злонамеренных целях.

Могут ли ИИ-агенты теперь заменить человеческих аудиторов смарт-контрактов?

Еще нет. Хотя ИИ отлично справляется с поиском конкретных «иголок в стоге сена» при наличии подсказок, он все еще испытывает трудности с комплексной проверкой целых экосистем. Человеческий контроль остается «финальным боссом» безопасности смарт-контрактов.

Что такое риск «Vibe-Coding», упомянутый в этих отчетах?

«Vibe-coding» означает, что разработчики используют ИИ для быстрого генерирования кода и развертывания его без глубокого ручного анализа. Последние инциденты (например, инцидент с Moonwell на сумму $1,78 млн) показывают, что когда люди слишком быстро «утверждают» код ИИ, критические ошибки логики могут попасть на мейннет.

Как я могу использовать EVMbench для тестирования моих собственных ИИ-агентов?

Вся система является открытой и доступна на GitHub. Разработчики могут скачать набор данных, настроить локальную среду Docker/Anvil и запустить свои собственные агенты через конвейеры Detect, Patch и Exploit.
Отказ от ответственности: Информация на этой странице может быть получена от третьих лиц и не обязательно отражает взгляды или мнения KuCoin. Данный контент предоставляется исключительно в общих информационных целях, без каких-либо заверений или гарантий, а также не может быть истолкован как финансовый или инвестиционный совет. KuCoin не несет ответственности за ошибки или упущения, а также за любые результаты, полученные в результате использования этой информации. Инвестиции в цифровые активы могут быть рискованными. Пожалуйста, тщательно оценивайте риски, связанные с продуктом, и свою устойчивость к риску, исходя из собственных финансовых обстоятельств. Для получения более подробной информации, пожалуйста, ознакомьтесь с нашими Условиями использования и Уведомлением о риске.