什麼是 EVMbench?新一代智能合約安全 AI 標準

iconKuCoin News
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy

重點摘要

  • AI 滥用速度超越防禦:初步結果顯示存在「安全差距」。OpenAI 的 GPT-5.3-Codex 在漏洞利用模式下的成功率达到 72.2%,但僅能正確修復約 41.5% 的相同漏洞。目前,AI 作為駭客的表現優於其作為醫生的表現。
  • 真實世界質押:與合成基準不同,EVMbench 使用生產級代碼,包括 Tempo 區塊鏈中的複雜場景。這確保了 AI 是在可能導致數百萬損失的「實戰」場景中接受測試。
  • 防禦性行動呼籲:與基準一同,OpenAI 承諾提供 1000 萬美元的 API 信用額度,用於防禦性網絡安全研究。目標是確保隨著 AI 日趨強大,「正派人士」能擁有工具,建立能與 AI 驅動的攻擊者同步的 AI 驅動自動審計系統。

什麼是 EVMbench?新的智能合約安全 AI 標準

在 Web3 快速演變的時代,安全已不再只是人類的責任。2026 年 2 月 18 日,OpenAI 與 Paradigm 宣布推出 EVMbench,這是一個開源的基準測試框架,用於評估 AI 代理在以太坊智能合約安全這一高風險領域中的表現。
隨著 GPT-5.3-Codex 等 AI 模型在編寫和執行代碼方面的能力日益提升,業界需要一種方法來衡量這些代理是否正在成為更優秀的防禦者,還是更危險的攻擊者。

EVMbench 如何運作?

EVMbench 不只是一場簡單的問卷;它是一場嚴格的沙盒壓力測試。()它使用了從 40 個真實世界審計和安全競賽(如 Code4rena)中提取的 120 個高嚴重性漏洞數據集。
該框架根據專業安全審計員的工作流程,從三個不同的「模式」評估 AI 模型:
  1. 偵測模式(審計員)

AI 會獲得一個智能合約儲存庫,並被要求找出特定的「真實」漏洞。成功與否以召回率衡量——與最初審計代碼的人類專家相比,AI 捕捉到了多少真實的漏洞?
  1. 補丁模式(工程師)

一旦發現漏洞,AI 能否修復它?在這種模式下,代理必須修改代碼以消除漏洞。()但有一個條件:「修復補丁」必須保留原始功能。()如果 AI 修復了漏洞但破壞了合約的主要功能,則視為失敗。
  1. 漏洞模式(紅隊成員)

這是最「真實」的設定。在本地、隔離的以太坊環境中(使用一種稱為 Anvil 的工具),AI 必須成功執行一項資金盜取攻擊。該基準測試會程式化檢查「攻擊者」是否實際成功轉移了模擬資金。

EVMbench 常見問題

EVMbench 使用真實資金或實時網絡嗎?

不是。EVMbench 在一個完全隔離的本地環境中運行。它使用「容器化」版本的以太坊虛擬機,意味著 AI 代理可以嘗試「盜取資金」,但不會產生任何現實世界的財務風險或法律後果。

為什麼 OpenAI 和 Paradigm 會發布這個?

為 AI 安全建立一個「標準化量尺」。透過開源該基準,他們讓整個加密貨幣社區能夠追蹤 AI 的能力,並鼓勵開發者在惡意行為者利用此技術之前,構建 AI 輔助審計工具。

AI 執行個體現在能取代人工智能合約審計員嗎?

還不是。雖然 AI 在獲得提示時非常擅長尋找特定的「大海撈針」式漏洞,但它仍難以對整個生態系統進行全面審計。人工監督仍然是智能合約安全的「最終 BOSS」。

這些報告中提到的「Vibe-Coding」風險是什麼?

“Vibe-coding” 指開發者使用 AI 快速生成程式碼,並在未進行深入人工審查的情況下部署。近期的攻擊事件(如 1.78M 美元的 Moonwell 事件)顯示,當人類過快地“蓋章批准”AI 程式碼時,關鍵邏輯錯誤可能滲入主網。

我如何使用 EVMbench 測試我的 AI 代理?

整個框架為開源,並可在 GitHub 上取得。開發者可下載數據集,設置本地 Docker/Anvil 環境,並透過 Detect、Patch 和 Exploit 流程運行自己的代理。
免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露