Основні висновки

Експлуатація ШІ перевищує захист: ранні результати показують «розрив у безпеці». GPT-5.3-Codex від OpenAI досяг захоплюючого рівня успішності 72,2% у режимі експлуатації, але виправив лише близько 41,5% цих самих помилок. Наразі ШІ є кращим хакером, ніж лікарем.
Реальні ставки: На відміну від синтетичних показників, EVMbench використовує код виробничого рівня, включаючи складні сценарії з блокчейну Tempo. Це забезпечує тестування ШІ на сценаріях «у реальних умовах», де логічні помилки можуть призвести до втрат у мільйони доларів.
Захисний заклик до дії: Разом із еталоном OpenAI виділила 10 мільйонів доларів США у вигляді кредитів на API для досліджень у сфері захисної кібербезпеки. Мета — забезпечити, щоб із зростанням потужності ШІ «добряки» мали інструменти для створення автоматизованих аудиторів на основі ШІ, які зможуть крокувати в ногу з атакувальниками, що використовують ШІ.

Що таке EVMbench? Новий AI-стандарт для безпеки смартконтрактів

У швидко розвиваючомуся світі Web3 безпека більше не є лише людським зусиллям. 18 лютого 2026 року OpenAI та Paradigm оголосили про запуск EVMbench — відкритої платформи для тестування, призначеної для оцінки того, як AI-агенти справляються з високоризикованим світом смартконтрактів ethereum.

Зі зростанням здатності моделей ШІ, таких як GPT-5.3-Codex, писати та виконувати код, галузі потрібен спосіб вимірювання того, чи стають ці агенти кращими захисниками чи більш небезпечними нападниками.

Як працює EVMbench?

EVMbench — це не просто простий тест; це строгий, ізольований стрес-тест.() Він використовує набір даних з 120 вразливостей високого рівня серйозності, отриманих з 40 реальних аудитів та конкурсів безпеки (наприклад, Code4rena).

Фреймворк оцінює моделі ШІ у трьох різних «режимах», що відповідають робочому процесу професійного аудитора безпеки:

Режим виявлення (Аудитор)

Штучному інтелекту надається сховище смартконтрактів і завдання знайти конкретні «еталонні» вразливості. Успіх вимірюється за допомогою повноти — скільки реальних помилок виявив штучний інтелект порівняно з людськими експертами, які спочатку провели аудит коду?

Режим виправлення (Інженер)

Після виявлення помилки чи може AI її виправити? У цьому режимі агент повинен змінити код, щоб видалити вразливість.() Однак є пастка: «патч» має зберігати початкову функціональність.() Якщо AI виправляє помилку, але ламає основні функції контракту, він провалюється.

Режим експлуатації (Red Teamer)

Це найбільш «реалістична» налаштування. У локальному, ізольованому середовищі Ethereum (за допомогою інструменту під назвою Anvil), ІМ повинен успішно виконати атаку з виведення коштів. Бенчмарк програмно перевіряє, чи вдалося «атакувальнику» реально перемістити симульовані кошти.

ЧАСТІ ПИТАННЯ ЩОДО EVMbench

Чи використовує EVMbench реальні гроші або живі мережі?

Ні. EVMbench працює в повністю ізольованому локальному середовищі. Він використовує «контейнеризовану» версію Ethereum Virtual Machine, що означає, що агенти ШІ можуть намагатися «вивести кошти» без будь-якого реального фінансового ризику чи правових наслідків.

Чому OpenAI та Paradigm випустили це?

Створити «стандартизований мірник» для безпеки ШІ. Відкривши бенчмарк, вони дозволяють всьому крипто-співтовариству відстежувати можливості ШІ та закликають розробників створювати інструменти аудиту з підтримкою ШІ, перш ніж зловмисники зможуть використати цю технологію у злочинних цілях.

Чи можуть агенти ШІ зараз замінити людей-аудиторів смартконтрактів?

Ще ні. Хоча ШІ чудово виявляє конкретні «знайти голку у стогу сіна» помилки, отримавши підказки, він все ще має труднощі з повними аудитами цілих екосистем. Людський контроль залишається «фінальним босом» безпеки смартконтрактів.

Що таке ризик «Vibe-Coding», згаданий у цих звітах?

«Vibe-coding» — це коли розробники використовують ШІ для швидкого генерування коду та розгортання його без глибокого ручного аналізу. Останні атаки (наприклад, інцидент з Moonwell на $1,78 млн) показують, що коли люди надто швидко «затверджують» код від ШІ, критичні помилки логіки можуть потрапити на мейннет.

Як я можу використовувати EVMbench для тестування моїх власних AI-агентів?

Вся фреймворк є відкритим кодом і доступна на GitHub. Розробники можуть завантажити набір даних, налаштувати локальне середовище Docker/Anvil і запускати власні агенти через конвеєри Detect, Patch та Exploit.

Що таке EVMbench? Новий AI-стандарт для безпеки смартконтрактів

Основні висновки

Що таке EVMbench? Новий AI-стандарт для безпеки смартконтрактів

Як працює EVMbench?

Режим виявлення (Аудитор)

Режим виправлення (Інженер)

Режим експлуатації (Red Teamer)

ЧАСТІ ПИТАННЯ ЩОДО EVMbench

Чи використовує EVMbench реальні гроші або живі мережі?

Чому OpenAI та Paradigm випустили це?

Чи можуть агенти ШІ зараз замінити людей-аудиторів смартконтрактів?

Що таке ризик «Vibe-Coding», згаданий у цих звітах?

Як я можу використовувати EVMbench для тестування моїх власних AI-агентів?