重點摘要

AI 滥用速度超越防禦：初步結果顯示存在「安全差距」。OpenAI 的 GPT-5.3-Codex 在漏洞利用模式下的成功率达到 72.2%，但僅能正確修復約 41.5% 的相同漏洞。目前，AI 作為駭客的表現優於其作為醫生的表現。
真實世界質押：與合成基準不同，EVMbench 使用生產級代碼，包括 Tempo 區塊鏈中的複雜場景。這確保了 AI 是在可能導致數百萬損失的「實戰」場景中接受測試。
防禦性行動呼籲：與基準一同，OpenAI 承諾提供 1000 萬美元的 API 信用額度，用於防禦性網絡安全研究。目標是確保隨著 AI 日趨強大，「正派人士」能擁有工具，建立能與 AI 驅動的攻擊者同步的 AI 驅動自動審計系統。

什麼是 EVMbench？新的智能合約安全 AI 標準

在 Web3 快速演變的時代，安全已不再只是人類的責任。2026 年 2 月 18 日，OpenAI 與 Paradigm 宣布推出 EVMbench，這是一個開源的基準測試框架，用於評估 AI 代理在以太坊智能合約安全這一高風險領域中的表現。

隨著 GPT-5.3-Codex 等 AI 模型在編寫和執行代碼方面的能力日益提升，業界需要一種方法來衡量這些代理是否正在成為更優秀的防禦者，還是更危險的攻擊者。

EVMbench 不只是一場簡單的問卷；它是一場嚴格的沙盒壓力測試。（）它使用了從 40 個真實世界審計和安全競賽（如 Code4rena）中提取的 120 個高嚴重性漏洞數據集。

該框架根據專業安全審計員的工作流程，從三個不同的「模式」評估 AI 模型：

AI 會獲得一個智能合約儲存庫，並被要求找出特定的「真實」漏洞。成功與否以召回率衡量——與最初審計代碼的人類專家相比，AI 捕捉到了多少真實的漏洞？

一旦發現漏洞，AI 能否修復它？在這種模式下，代理必須修改代碼以消除漏洞。（）但有一個條件：「修復補丁」必須保留原始功能。（）如果 AI 修復了漏洞但破壞了合約的主要功能，則視為失敗。

這是最「真實」的設定。在本地、隔離的以太坊環境中（使用一種稱為 Anvil 的工具），AI 必須成功執行一項資金盜取攻擊。該基準測試會程式化檢查「攻擊者」是否實際成功轉移了模擬資金。

不是。EVMbench 在一個完全隔離的本地環境中運行。它使用「容器化」版本的以太坊虛擬機，意味著 AI 代理可以嘗試「盜取資金」，但不會產生任何現實世界的財務風險或法律後果。

為 AI 安全建立一個「標準化量尺」。透過開源該基準，他們讓整個加密貨幣社區能夠追蹤 AI 的能力，並鼓勵開發者在惡意行為者利用此技術之前，構建 AI 輔助審計工具。

還不是。雖然 AI 在獲得提示時非常擅長尋找特定的「大海撈針」式漏洞，但它仍難以對整個生態系統進行全面審計。人工監督仍然是智能合約安全的「最終 BOSS」。

“Vibe-coding” 指開發者使用 AI 快速生成程式碼，並在未進行深入人工審查的情況下部署。近期的攻擊事件（如 1.78M 美元的 Moonwell 事件）顯示，當人類過快地“蓋章批准”AI 程式碼時，關鍵邏輯錯誤可能滲入主網。

整個框架為開源，並可在 GitHub 上取得。開發者可下載數據集，設置本地 Docker/Anvil 環境，並透過 Detect、Patch 和 Exploit 流程運行自己的代理。