Poin Utama
-
Pengeksploitasian AI melampaui pertahanan: Keputusan awal menunjukkan "lubang keselamatan." GPT-5.3-Codex daripada OpenAI mencapai kadar kejayaan 72.2% dalam mod eksploitasi, tetapi hanya membaiki sekitar 41.5% daripada ralat yang sama dengan betul. AI kini lebih baik sebagai perompak daripada sebagai doktor.
-
Taruhan Dunia Nyata: Berbeza dengan tolok sintetik, EVMbench menggunakan kod peringkat pengeluaran, termasuk senario kompleks daripada blok rantai Tempo. Ini memastikan AI diuji dalam senario "api sebenar" di mana ralat logik boleh menyebabkan kerugian jutaan.
-
Seruan Tindakan Defensif: Bersama dengan tolok ukur tersebut, OpenAI mengkomitmenkan $10 juta dalam kredit API untuk penyelidikan siber defensif. Tujuannya adalah memastikan bahawa seiring AI menjadi lebih kuat, "pihak baik" mempunyai alat untuk membina auditor automatik berasaskan AI yang mampu mengejar serangan berasaskan AI.
Apa itu EVMbench? Piawaian AI Baharu untuk Keselamatan Kontrak Pintar
Dalam dunia Web3 yang berkembang pesat, keselamatan bukan lagi usaha semata-mata manusia. Pada 18 Februari 2026, OpenAI dan Paradigm mengumumkan pelancaran EVMbench, satu kerangka kerja penilaian sumber terbuka yang direka untuk menilai bagaimana agen AI mengendalikan dunia keselamatan kontrak pintar ethereum yang penuh risiko.
Sebagai model AI seperti GPT-5.3-Codex menjadi semakin mampu menulis dan menjalankan kod, industri ini memerlukan cara untuk mengukur sama ada agen-agen ini menjadi pertahanan yang lebih baik atau penyerang yang lebih berbahaya.
Bagaimana EVMbench Berfungsi?
EVMbench bukan sekadar kuiz ringkas; ia adalah ujian tekanan yang ketat dan disekat.() Ia menggunakan set data 120 kelemahan serius yang diambil dari 40 audit dunia nyata dan pertandingan keselamatan (seperti Code4rena).
Rangka kerja ini menilai model AI melalui tiga "Mod" berbeza yang mencerminkan alur kerja auditor keselamatan profesional:
-
Mod Pengesanan (Pengauditor)
AI diberikan repositori kontrak pintar dan ditugaskan untuk mencari kerentanan "ground-truth" tertentu. Kejayaan diukur berdasarkan recall—berapa banyak ralat sebenar yang ditangkap oleh AI berbanding pakar manusia yang pertama kali mengaudit kod tersebut?
-
Mod Pembaikan (Jurutera)
Setelah ralat ditemui, adakah AI boleh memperbaikinya? Dalam mod ini, agen mesti mengubah kod untuk menghapus kerentanan.() Namun, terdapat satu kelemahan: "pembaikan" mesti mengekalkan fungsionaliti asal.() Jika AI memperbaiki ralat tetapi merosakkan ciri utama kontrak, ia gagal.
-
Mod Eksplotasi (The Red Teamer)
Ini adalah tetapan paling "realistik". Dalam persekitaran Ethereum tempatan yang disekat (menggunakan alat bernama Anvil), AI mesti berjaya melaksanakan serangan pengurasan dana. Ukuran piawai secara program memeriksa sama ada "penyerang" berjaya memindahkan dana simulasi.
Soalan Lazim untuk EVMbench
Adakah EVMbench menggunakan wang benar atau rangkaian sebenar?
Tidak. EVMbench berjalan dalam persekitaran tempatan yang sepenuhnya terpisah. Ia menggunakan versi "terkontena" Mesin Virtual Ethereum, bermakna agen AI boleh mencuba untuk "menarik dana" tanpa sebarang risiko kewangan atau konsekuensi undang-undang dalam dunia nyata.
Mengapa OpenAI dan Paradigm mengeluarkan ini?
Untuk menciptakan "ukuran piawai" bagi keselamatan AI. Dengan membuka sumber benchmark tersebut, mereka membolehkan seluruh komuniti kripto untuk memantau kemampuan AI dan mendorong pembangun untuk membina alat audit yang dibantu AI sebelum pihak jahat boleh memanfaatkan teknologi ini.
Bolehkah agen AI sekarang menggantikan auditor kontrak pintar manusia?
Belum. Walaupun AI sangat cekap dalam mencari ralat spesifik "perlu cari dalam tumpukan jerami" apabila diberi petunjuk, ia masih mengalami kesukaran dengan audit menyeluruh terhadap keseluruhan ekosistem. Pengawasan manusia masih merupakan "bos akhir" keselamatan kontrak pintar.
Apakah risiko "Vibe-Coding" yang disebutkan dalam laporan-laporan ini?
"Vibe-coding" merujuk kepada pembangun yang menggunakan AI untuk menghasilkan kod dengan pantas dan melancarkannya tanpa semakan manual yang mendalam. Insiden-insiden terkini (seperti insiden Moonwell $1.78J) menunjukkan bahawa apabila manusia "menyahkan" kod AI terlalu pantas, ralat logik penting boleh meresap ke rangkaian utama.
Bagaimana saya boleh menggunakan EVMbench untuk menguji agen AI saya sendiri?
Keseluruhan kerangka kerja adalah sumber terbuka dan tersedia di GitHub. Pembangun boleh memuat turun set data, menetapkan persekitaran Docker/Anvil tempatan, dan menjalankan agen mereka sendiri melalui paip Detect, Patch, dan Exploit.
