Що таке EVMbench? Новий AI-стандарт для безпеки смартконтрактів

iconKuCoin News
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy

Основні висновки

  • Експлуатація ШІ перевищує захист: ранні результати показують «розрив у безпеці». GPT-5.3-Codex від OpenAI досяг захоплюючого рівня успішності 72,2% у режимі експлуатації, але виправив лише близько 41,5% цих самих помилок. Наразі ШІ є кращим хакером, ніж лікарем.
  • Реальні ставки: На відміну від синтетичних показників, EVMbench використовує код виробничого рівня, включаючи складні сценарії з блокчейну Tempo. Це забезпечує тестування ШІ на сценаріях «у реальних умовах», де логічні помилки можуть призвести до втрат у мільйони доларів.
  • Захисний заклик до дії: Разом із еталоном OpenAI виділила 10 мільйонів доларів США у вигляді кредитів на API для досліджень у сфері захисної кібербезпеки. Мета — забезпечити, щоб із зростанням потужності ШІ «добряки» мали інструменти для створення автоматизованих аудиторів на основі ШІ, які зможуть крокувати в ногу з атакувальниками, що використовують ШІ.

Що таке EVMbench? Новий AI-стандарт для безпеки смартконтрактів

У швидко розвиваючомуся світі Web3 безпека більше не є лише людським зусиллям. 18 лютого 2026 року OpenAI та Paradigm оголосили про запуск EVMbench — відкритої платформи для тестування, призначеної для оцінки того, як AI-агенти справляються з високоризикованим світом смартконтрактів ethereum.
Зі зростанням здатності моделей ШІ, таких як GPT-5.3-Codex, писати та виконувати код, галузі потрібен спосіб вимірювання того, чи стають ці агенти кращими захисниками чи більш небезпечними нападниками.

Як працює EVMbench?

EVMbench — це не просто простий тест; це строгий, ізольований стрес-тест.() Він використовує набір даних з 120 вразливостей високого рівня серйозності, отриманих з 40 реальних аудитів та конкурсів безпеки (наприклад, Code4rena).
Фреймворк оцінює моделі ШІ у трьох різних «режимах», що відповідають робочому процесу професійного аудитора безпеки:
  1. Режим виявлення (Аудитор)

Штучному інтелекту надається сховище смартконтрактів і завдання знайти конкретні «еталонні» вразливості. Успіх вимірюється за допомогою повноти — скільки реальних помилок виявив штучний інтелект порівняно з людськими експертами, які спочатку провели аудит коду?
  1. Режим виправлення (Інженер)

Після виявлення помилки чи може AI її виправити? У цьому режимі агент повинен змінити код, щоб видалити вразливість.() Однак є пастка: «патч» має зберігати початкову функціональність.() Якщо AI виправляє помилку, але ламає основні функції контракту, він провалюється.
  1. Режим експлуатації (Red Teamer)

Це найбільш «реалістична» налаштування. У локальному, ізольованому середовищі Ethereum (за допомогою інструменту під назвою Anvil), ІМ повинен успішно виконати атаку з виведення коштів. Бенчмарк програмно перевіряє, чи вдалося «атакувальнику» реально перемістити симульовані кошти.

ЧАСТІ ПИТАННЯ ЩОДО EVMbench

Чи використовує EVMbench реальні гроші або живі мережі?

Ні. EVMbench працює в повністю ізольованому локальному середовищі. Він використовує «контейнеризовану» версію Ethereum Virtual Machine, що означає, що агенти ШІ можуть намагатися «вивести кошти» без будь-якого реального фінансового ризику чи правових наслідків.

Чому OpenAI та Paradigm випустили це?

Створити «стандартизований мірник» для безпеки ШІ. Відкривши бенчмарк, вони дозволяють всьому крипто-співтовариству відстежувати можливості ШІ та закликають розробників створювати інструменти аудиту з підтримкою ШІ, перш ніж зловмисники зможуть використати цю технологію у злочинних цілях.

Чи можуть агенти ШІ зараз замінити людей-аудиторів смартконтрактів?

Ще ні. Хоча ШІ чудово виявляє конкретні «знайти голку у стогу сіна» помилки, отримавши підказки, він все ще має труднощі з повними аудитами цілих екосистем. Людський контроль залишається «фінальним босом» безпеки смартконтрактів.

Що таке ризик «Vibe-Coding», згаданий у цих звітах?

«Vibe-coding» — це коли розробники використовують ШІ для швидкого генерування коду та розгортання його без глибокого ручного аналізу. Останні атаки (наприклад, інцидент з Moonwell на $1,78 млн) показують, що коли люди надто швидко «затверджують» код від ШІ, критичні помилки логіки можуть потрапити на мейннет.

Як я можу використовувати EVMbench для тестування моїх власних AI-агентів?

Вся фреймворк є відкритим кодом і доступна на GitHub. Розробники можуть завантажити набір даних, налаштувати локальне середовище Docker/Anvil і запускати власні агенти через конвеєри Detect, Patch та Exploit.
Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.