Poin Utama

Eksploitasi AI Melampaui Pertahanan: Hasil awal menunjukkan "kesenjangan keamanan." GPT-5.3-Codex dari OpenAI mencapai tingkat keberhasilan mencengangkan 72,2% dalam mode eksploitasi, tetapi hanya memperbaiki sekitar 41,5% dari bug-bug yang sama dengan benar. AI saat ini lebih baik sebagai peretas daripada sebagai dokter.
Taruhan Dunia Nyata: Berbeda dengan tolok ukur sintetis, EVMbench menggunakan kode tingkat produksi, termasuk skenario kompleks dari blockchain Tempo. Ini memastikan AI diuji pada skenario "live-fire" di mana kesalahan logika dapat menyebabkan kerugian jutaan dolar.
Panggilan Aksi Defensif: Bersama dengan tolok ukur tersebut, OpenAI berkomitmen menyediakan kredit API senilai $10 juta untuk penelitian siber defensif. Tujuannya adalah memastikan bahwa seiring AI menjadi semakin kuat, pihak "yang baik" memiliki alat untuk membangun auditor otomatis berbasis AI yang dapat mengejar kecepatan serangan yang didorong oleh AI.

Apa itu EVMbench? Standar AI Baru untuk Keamanan Kontrak Pintar

Di dunia Web3 yang terus berkembang pesat, keamanan tidak lagi hanya menjadi upaya manusia. Pada 18 Februari 2026, OpenAI dan Paradigm mengumumkan peluncuran EVMbench, kerangka kerja benchmark open-source yang dirancang untuk mengevaluasi bagaimana agen AI menangani dunia keamanan kontrak pintar ethereum yang penuh risiko.

Seiring model AI seperti GPT-5.3-Codex menjadi semakin mampu menulis dan menjalankan kode, industri membutuhkan cara untuk mengukur apakah agen-agen ini menjadi pertahanan yang lebih baik atau penyerang yang lebih berbahaya.

Bagaimana cara kerja EVMbench?

EVMbench bukan hanya kuis sederhana; ini adalah uji tekanan yang ketat dan terisolasi.() Ini menggunakan dataset 120 kerentanan berisiko tinggi yang diambil dari 40 audit dunia nyata dan kompetisi keamanan (seperti Code4rena).

Kerangka kerja mengevaluasi model AI melalui tiga "Mode" berbeda yang mencerminkan alur kerja auditor keamanan profesional:

Mode Deteksi (The Auditor)

AI diberi repositori kontrak pintar dan ditugaskan untuk menemukan kerentanan "ground-truth" tertentu. Keberhasilan diukur berdasarkan recall—berapa banyak bug nyata yang berhasil diidentifikasi AI dibandingkan dengan para ahli manusia yang awalnya mengaudit kode tersebut?

Mode Perbaikan (Insinyur)

Setelah bug ditemukan, apakah AI dapat memperbaikinya? Dalam mode ini, agen harus memodifikasi kode untuk menghilangkan kerentanan. () Namun, ada kendalanya: "patch" harus mempertahankan fungsionalitas asli. () Jika AI memperbaiki bug tetapi merusak fitur utama kontrak, maka gagal.

Mode Eksploit (The Red Teamer)

Ini adalah pengaturan paling "realistis". Di lingkungan Ethereum lokal dan terisolasi (menggunakan alat bernama Anvil), AI harus berhasil menjalankan serangan pengurasan dana. Benchmark memeriksa secara programatik apakah "penyerang" benar-benar berhasil memindahkan dana simulasi.

Pertanyaan yang Sering Diajukan untuk EVMbench

Apakah EVMbench menggunakan uang sungguhan atau jaringan langsung?

Tidak. EVMbench berjalan di lingkungan lokal yang benar-benar terisolasi. Ini menggunakan versi "terkontainerisasi" dari Ethereum Virtual Machine, artinya agen AI dapat mencoba untuk "menarik dana" tanpa risiko keuangan atau konsekuensi hukum di dunia nyata.

Mengapa OpenAI dan Paradigm merilis ini?

Untuk menciptakan "ukuran standar" untuk keamanan AI. Dengan membuka sumber benchmark tersebut, mereka memungkinkan seluruh komunitas kripto untuk melacak kemampuan AI dan mendorong pengembang untuk membangun alat audit yang dibantu AI sebelum pihak jahat dapat memanfaatkan teknologi ini.

Apakah agen AI sekarang dapat menggantikan auditor kontrak pintar manusia?

Belum. Meskipun AI sangat unggul dalam menemukan bug spesifik "jarum di tumpukan jerami" ketika diberi petunjuk, ia masih kesulitan melakukan audit komprehensif terhadap seluruh ekosistem. Pengawasan manusia masih tetap menjadi "bos akhir" dari keamanan kontrak pintar.

Apa risiko "Vibe-Coding" yang disebutkan dalam laporan-laporan ini?

"Vibe-coding" merujuk pada pengembang yang menggunakan AI untuk menghasilkan kode dengan cepat dan menerapkannya tanpa tinjauan manual mendalam. Eksploitasi terbaru (seperti insiden Moonwell senilai $1,78 juta) menunjukkan bahwa ketika manusia terlalu cepat "menyetujui" kode AI, kesalahan logika kritis dapat lolos ke mainnet.

Bagaimana cara saya menggunakan EVMbench untuk menguji agen AI saya sendiri?

Seluruh kerangka kerja bersifat open-source dan tersedia di GitHub. Pengembang dapat mengunduh dataset, mengatur lingkungan Docker/Anvil lokal, dan menjalankan agen mereka sendiri melalui pipeline Detect, Patch, dan Exploit.

Apa itu EVMbench? Standar AI Baru untuk Keamanan Kontrak Pintar

Poin Utama

Apa itu EVMbench? Standar AI Baru untuk Keamanan Kontrak Pintar

Bagaimana cara kerja EVMbench?

Mode Deteksi (The Auditor)

Mode Perbaikan (Insinyur)

Mode Eksploit (The Red Teamer)

Pertanyaan yang Sering Diajukan untuk EVMbench

Apakah EVMbench menggunakan uang sungguhan atau jaringan langsung?

Mengapa OpenAI dan Paradigm merilis ini?

Apakah agen AI sekarang dapat menggantikan auditor kontrak pintar manusia?

Apa risiko "Vibe-Coding" yang disebutkan dalam laporan-laporan ini?

Bagaimana cara saya menggunakan EVMbench untuk menguji agen AI saya sendiri?