Mga Pangunahing Takaway

Ang pagpapabaya ng AI ay mas mabilis kaysa sa pagtutol: Ang mga maagang resulta ay nagpapakita ng “security gap.” Nakamit ng GPT-5.3-Codex ng OpenAI ang nakakapanlito na 72.2% na rate ng tagumpay sa mode ng pagpapabaya, ngunit lamang ay pinabuti ang halos 41.5% ng mga bug na iyon nang tama. Ang AI ay kasalukuyang mas mabuting hacker kaysa sa doktor.
Mga Totoong Stake: Sa pagkakaiba sa mga sintetikong benchmark, gumagamit ang EVMbench ng production-grade code, kabilang ang mga kumplikadong skenaryo mula sa Tempo blockchain. Ito ay nagpapatotoo na sinusubok ang AI sa mga "live-fire" na skenaryo kung деan ang mga pagkakamali sa lohika ay maaaring magdulot ng milyon-milyong pagkawala.
Isang Depensibong Pagkilos: Kasama ang benchmark, inakma ni OpenAI ang $10 milyon sa API credits para sa depensibong pananaliksik sa cybersecurity. Ang layunin ay siguraduhing habang lumalaki ang kapangyarihan ng AI, mayroon ang mga “mabuting tao” ng mga kasangkapan upang buuin ang mga automated na auditor na batay sa AI na makakasabay sa mga attacker na batay sa AI.

Ano ang EVMbench? Ang Bagong AI Standard para sa Kaligtasan ng Smart Contract

Sa mabilis na umuunlad na mundo ng Web3, ang seguridad ay hindi na lamang isang gawaing tao. Noong Pebrero 18, 2026, ang OpenAI at Paradigm ay inihayag ang paglunsad ng EVMbench, isang open-source na benchmarking framework na disenyo upang masukat kung paano hinahawakan ng AI agents ang mataas na antas ng seguridad ng ethereum smart contract.

Dahil sa pagiging lalong kakayahang sumulat at pagsasagawa ng code ng mga modelo ng AI tulad ng GPT-5.3-Codex, kailangan ng industriya ng paraan upang sukatin kung ang mga agent na ito ay nagsisiging maging mas mabuting tagapagtaguyod o mas mapanganib na mga mananakop.

Paano gumagana ang EVMbench?

Hindi lamang isang simpleng quiz ang EVMbench; ito ay isang matinding, sandboxed na stress test.() Gumagamit ito ng isang dataset ng 120 mataas na kalalabasan na mga vulnerability na kinuha mula sa 40 tunay na audit at security competition (tulad ng Code4rena).

Ang framework ay nagtataya ng mga AI model sa tatlong magkakaibang "Mode" na nagpapakita ng proseso ng isang propesyonal na security auditor:

Detect Mode (Ang Auditor)

Binibigyan ng repository ng smart contract ang AI at hinihiling na hanapin ang mga partikular na "ground-truth" vulnerabilities. Ang tagumpay ay sinusukat sa pamamagitan ng recall—ilan sa mga tunay na bug ang nakatanggap ng AI kumpara sa mga eksperto na tao na unang nagsagawa ng audit sa code?

Patch Mode (Ang Inhenyero)

Kapag natuklasan ang isang bug, kayang ayusin ng AI ito? Sa mode na ito, kailangan ng agent na baguhin ang code upang tanggalin ang vulnerability. () Gayunpaman, may kakaibang kondisyon: ang “patch” ay dapat panatilihin ang orihinal na functionality. () Kung ayusin ng AI ang bug ngunit nasira ang pangunahing tampok ng contract, mabibigo ito.

Exploit Mode (Ang Red Teamer)

Ito ang pinakamakatotohanang setting. Sa isang lokal, sandboxed na Ethereum environment (gamit ang isang tool na tinatawag na Anvil), kailangan ng AI na matagumpay na maisagawa ang isang pag-atake sa pagbawas ng pondo. Ang benchmark ay awtomatikong sinusuri kung talagang napanalunan ng "mga atake" ang mga sinimulang pondo.

Mga Madalas na Itanong para sa EVMbench

Gumagamit ba ang EVMbench ng totoong pera o live networks?

Hindi. Nagpapatakbo ang EVMbench sa isang ganap na hiwalay, lokal na kapaligiran. Gumagamit ito ng "containerized" bersyon ng Ethereum Virtual Machine, kaya ang mga AI agent ay maaaring subukan na "drain funds" nang walang anumang tunay na panganib sa pananalapi o legal na konsekwensya.

Bakit inilabas ng OpenAI at Paradigm ito?

Upang lumikha ng “standardized yardstick” para sa AI security. Sa pamamagitan ng pag-open source ng benchmark, pinapahintulutan nila ang buong crypto community na suriin ang mga kakayahan ng AI at itinutulak ang mga developer na gumawa ng mga tool para sa AI-assisted auditing bago makapaggamit ng teknolohiyang ito ang mga masasamang actor.

Maaari na bang palitan ng AI agents ang mga tao na nag-audits ng smart contract?

Hindi pa. Habang mahusay ang AI sa paghahanap ng mga tiyak na "needle-in-a-haystack" bugs kapag binigyan ng mga hint, nananatili itong nahihirapan sa komprehensibong audit ng buong ecosystem. Ang tao pa rin ang "final boss" ng smart contract security.

Ano ang "Vibe-Coding" risk na nabanggit sa mga ulat na ito?

Ang "vibe-coding" ay tumutukoy sa mga developer na gumagamit ng AI upang mabilis na lumikha ng code at ipapalabas ito nang walang malalim na manual na pagsusuri. Ipinakita ng mga bagong pag-atake (tulad ng insidente sa Moonwell na $1.78M) na kapag ang mga tao ay masyadong mabilis na "rubber-stamp" ang AI code, maaaring makalabas ang mga mahalagang pagkakamali sa lohika sa mainnet.

Paano ko gamitin ang EVMbench upang subukan ang aking sariling AI agents?

Buong framework ay open-source at available sa GitHub. Maaaring i-download ng mga developer ang dataset, i-set up ang lokal na Docker/Anvil environment, at i-run ang kanilang sariling mga agent sa pamamagitan ng Detect, Patch, at Exploit pipelines.