重點摘要
-
AI 滥用速度超越防禦:初步結果顯示存在「安全差距」。OpenAI 的 GPT-5.3-Codex 在漏洞利用模式下的成功率达到 72.2%,但僅能正確修復約 41.5% 的相同漏洞。目前,AI 作為駭客的表現優於其作為醫生的表現。
-
真實世界質押:與合成基準不同,EVMbench 使用生產級代碼,包括 Tempo 區塊鏈中的複雜場景。這確保了 AI 是在可能導致數百萬損失的「實戰」場景中接受測試。
-
防禦性行動呼籲:與基準一同,OpenAI 承諾提供 1000 萬美元的 API 信用額度,用於防禦性網絡安全研究。目標是確保隨著 AI 日趨強大,「正派人士」能擁有工具,建立能與 AI 驅動的攻擊者同步的 AI 驅動自動審計系統。
什麼是 EVMbench?新的智能合約安全 AI 標準
在 Web3 快速演變的時代,安全已不再只是人類的責任。2026 年 2 月 18 日,OpenAI 與 Paradigm 宣布推出 EVMbench,這是一個開源的基準測試框架,用於評估 AI 代理在以太坊智能合約安全這一高風險領域中的表現。
隨著 GPT-5.3-Codex 等 AI 模型在編寫和執行代碼方面的能力日益提升,業界需要一種方法來衡量這些代理是否正在成為更優秀的防禦者,還是更危險的攻擊者。
EVMbench 如何運作?
EVMbench 不只是一場簡單的問卷;它是一場嚴格的沙盒壓力測試。()它使用了從 40 個真實世界審計和安全競賽(如 Code4rena)中提取的 120 個高嚴重性漏洞數據集。
該框架根據專業安全審計員的工作流程,從三個不同的「模式」評估 AI 模型:
-
偵測模式(審計員)
AI 會獲得一個智能合約儲存庫,並被要求找出特定的「真實」漏洞。成功與否以召回率衡量——與最初審計代碼的人類專家相比,AI 捕捉到了多少真實的漏洞?
-
補丁模式(工程師)
一旦發現漏洞,AI 能否修復它?在這種模式下,代理必須修改代碼以消除漏洞。()但有一個條件:「修復補丁」必須保留原始功能。()如果 AI 修復了漏洞但破壞了合約的主要功能,則視為失敗。
-
漏洞模式(紅隊成員)
這是最「真實」的設定。在本地、隔離的以太坊環境中(使用一種稱為 Anvil 的工具),AI 必須成功執行一項資金盜取攻擊。該基準測試會程式化檢查「攻擊者」是否實際成功轉移了模擬資金。
EVMbench 常見問題
EVMbench 使用真實資金或實時網絡嗎?
不是。EVMbench 在一個完全隔離的本地環境中運行。它使用「容器化」版本的以太坊虛擬機,意味著 AI 代理可以嘗試「盜取資金」,但不會產生任何現實世界的財務風險或法律後果。
為什麼 OpenAI 和 Paradigm 會發布這個?
為 AI 安全建立一個「標準化量尺」。透過開源該基準,他們讓整個加密貨幣社區能夠追蹤 AI 的能力,並鼓勵開發者在惡意行為者利用此技術之前,構建 AI 輔助審計工具。
AI 執行個體現在能取代人工智能合約審計員嗎?
還不是。雖然 AI 在獲得提示時非常擅長尋找特定的「大海撈針」式漏洞,但它仍難以對整個生態系統進行全面審計。人工監督仍然是智能合約安全的「最終 BOSS」。
這些報告中提到的「Vibe-Coding」風險是什麼?
“Vibe-coding” 指開發者使用 AI 快速生成程式碼,並在未進行深入人工審查的情況下部署。近期的攻擊事件(如 1.78M 美元的 Moonwell 事件)顯示,當人類過快地“蓋章批准”AI 程式碼時,關鍵邏輯錯誤可能滲入主網。
我如何使用 EVMbench 測試我的 AI 代理?
整個框架為開源,並可在 GitHub 上取得。開發者可下載數據集,設置本地 Docker/Anvil 環境,並透過 Detect、Patch 和 Exploit 流程運行自己的代理。
