主なポイント

AIの悪用が防御を上回る：初期の結果は「セキュリティギャップ」を示している。OpenAIのGPT-5.3-Codexは、攻撃モードで72.2％という驚異的な成功確率を達成したが、同じバグのうち約41.5％しか正しく修正できなかった。AIは現在、医師としてよりもハッカーとして優れている。
現実のステーク：合成ベンチマークとは異なり、EVMbenchはTempoブロックチェーンからの複雑なシナリオを含む本番環境用コードを使用します。これにより、AIは論理エラーが数百万ドルの損失につながる可能性のある「実戦」シナリオでテストされます。
防衛的な行動の呼びかけ：ベンチマークとともに、OpenAIは防衛的なサイバーセキュリティ研究のために1,000万ドルのAPIクレジットを提供することを約束しました。目的は、AIがより強力になるにつれて、「善側」がAI駆動の自動監査ツールを構築できるよう、AI駆動の攻撃者に対応できるようにすることです。

EVMbenchとは何ですか？スマートコントラクトセキュリティの新しいAI基準

Web3の急速に進化する世界において、セキュリティはもはや人間だけの取り組みではありません。2026年2月18日、OpenAIとParadigmは、AIエージェントがEthereumスマートコントラクトのセキュリティというハイステークスの世界をどのように扱うかを評価することを目的としたオープンソースのベンチマークフレームワークEVMbenchのリリースを発表しました。

GPT-5.3-CodexのようなAIモデルがコードの作成と実行においてますます優れた能力を備えるにつれ、業界はこれらのエージェントがより優れた防御者となっているか、それともより危険な攻撃者となっているかを測定する方法を必要としています。

EVMbenchはどのように機能しますか？

EVMbenchは単なるクイズではなく、厳格でサンドボックス化されたストレステストです。() これは、40の実際の監査およびセキュリティコンペティション（Code4renaなど）から収集された120の高嚴重度脆弱性のデータセットを使用しています。

このフレームワークは、プロフェッショナルなセキュリティ監査人のワークフローを模倣する3つの異なる「モード」でAIモデルを評価します：

検出モード（監査人）

AIはスマートコントラクトのリポジトリを与えられ、特定の「グランドトゥルース」脆弱性を特定するよう依頼される。成功はリコールで測定される——つまり、AIが発見した実際のバグの数は、元のコードを監査した人間の専門家と比較してどれだけ多いか？

パッチモード（エンジニア）

バグが見つかった場合、AIはそれを修正できますか？このモードでは、エージェントは脆弱性を除去するためにコードを変更しなければなりません。() ただし、注意点があります：「パッチ」は元の機能を維持しなければなりません。() AIがバグを修正したが、コントラクトの主要な機能を破壊した場合、失敗となります。

エクスプロイトモード（レッドチーム）

これは最も「現実的」な設定です。ローカルなサンドボックス環境のEthereum（Anvilというツールを使用）で、AIは資金吸い取り攻撃を成功させる必要があります。ベンチマークは、攻撃者がシミュレートされた資金を実際に移動したかどうかをプログラムで確認します。

EVMbenchに関するよくある質問

EVMbenchは実際のお金やライブネットワークを使用していますか？

いいえ。EVMbenchは完全に隔離されたローカル環境で実行されます。Ethereum仮想マシンの「コンテナ化」バージョンを使用しており、AIエージェントは実際の財務的リスクや法的責任なしに「資金を引き出そう」と試みることができます。

OpenAIとParadigmはなぜこれをリリースしたのでしょうか？

AIセキュリティのための「標準的な指標」を策定するため。ベンチマークをオープンソース化することで、彼らは暗号資産コミュニティ全体がAIの能力を追跡できるようにし、悪意のある行動者がこの技術を悪用する前に、AI支援監査ツールの開発を促しています。

AIエージェントは今や人間のスマートコントラクト監査者を置き換えることができるのか？

まだです。AIはヒントを与えられれば、特定の「干し草の中の針」のようなバグを見つけるのは優れていますが、エコシステム全体の包括的な監査にはまだ苦手です。人間の監視がスマートコントラクトセキュリティの「最終ボス」です。

これらのレポートで言及されている「Vibe-Coding」リスクとは何ですか？

"Vibe-coding"とは、開発者がAIを使って迅速にコードを生成し、深く手動でレビューせずにデプロイすることを指します。最近の攻撃（例：178万ドルのMoonwell事件）は、人間がAI生成のコードを過剰に承認すると、重要なロジックエラーがメインネットに流れ込む可能性があることを示しています。

EVMbenchを使って自分のAIエージェントをテストするにはどうすればよいですか？

全体のフレームワークはオープンソースであり、GitHubで利用できます。開発者はデータセットをダウンロードし、ローカルのDocker/Anvil環境を構築して、Detect、Patch、Exploitパイプラインを通じて独自のエージェントを実行できます。