मुख्य बिंदु

AI का दुरुपयोग रक्षा से आगे निकल गया है: प्रारंभिक परिणाम एक "सुरक्षा अंतर" दर्शाते हैं। OpenAI का GPT-5.3-Codex एक्सप्लॉइट मोड में 72.2% सफलता दर हासिल करने में सफल रहा, लेकिन इन्हीं में से लगभग 41.5% बग्स को ही सही ढंग से ठीक किया। AI वर्तमान में एक डॉक्टर की तुलना में एक बेहतर हैकर है।
वास्तविक दुनिया के स्टेक: सिंथेटिक बेंचमार्क के विपरीत, EVMbench उत्पादन-ग्रेड कोड का उपयोग करता है, जिसमें Tempo ब्लॉकचेन से जटिल परिदृश्य शामिल हैं। इससे सुनिश्चित होता है कि AI का परीक्षण "लाइव-फायर" परिदृश्यों पर किया जा रहा है, जहां तर्क में त्रुटियाँ मिलियनों के नुकसान का कारण बन सकती हैं।
एक सुरक्षात्मक कार्रवाई का आह्वान: मानक के साथ-साथ, OpenAI ने सुरक्षात्मक साइबर सुरक्षा शोध के लिए $10 मिलियन के API क्रेडिट्स का दान किया है। लक्ष्य यह सुनिश्चित करना है कि जैसे-जैसे AI अधिक शक्तिशाली होता जाए, "अच्छे लोगों" के पास AI-संचालित स्वचालित ऑडिटर बनाने के लिए ऐसे उपकरण हों जो AI-संचालित हमलावरों के साथ-साथ चल सकें।

EVMbench क्या है? स्मार्ट कॉन्ट्रैक्ट सुरक्षा के लिए नया AI मानक

वेब3 की तेजी से विकसित दुनिया में, सुरक्षा अब केवल मानव प्रयास नहीं है। 18 फरवरी, 2026 को, ओपनएआई और पैराडाइम ने EVMbench की घोषणा की, जो ईथेरियम स्‍मार्ट कॉन्ट्रैक्ट सुरक्षा की उच्च-जोखिम दुनिया में AI एजेंट्स के प्रदर्शन का मूल्यांकन करने के लिए एक ओपन-सोर्स बेंचमार्किंग फ्रेमवर्क है।

जैसे-जैसे GPT-5.3-Codex जैसे AI मॉडल कोड लिखने और निष्पादित करने के लिए अधिक क्षम होते जा रहे हैं, उद्योग को इस बात का मापन करने की आवश्यकता है कि ये एजेंट अधिक अच्छे रक्षक बन रहे हैं या अधिक खतरनाक हमलावर।

EVMbench कैसे काम करता है?

EVMbench केवल एक साधारण क्विज़ नहीं है; यह एक कठोर, सैंडबॉक्स्ड स्ट्रेस टेस्ट है।() यह 40 वास्तविक-दुनिया के ऑडिट और सुरक्षा प्रतियोगिताओं (जैसे Code4rena) से लिए गए 120 उच्च-गंभीर दुर्बलताओं के डेटासेट का उपयोग करता है।

फ्रेमवर्क तीन अलग-अलग "मोड्स" के माध्यम से AI मॉडल्स का मूल्यांकन करता है, जो एक पेशेवर सुरक्षा ऑडिटर के कार्य प्रवाह को दर्शाते हैं:

डिटेक्ट मोड (द ऑडिटर)

AI को एक स्मार्ट कॉन्ट्रैक्ट भंडार दिया जाता है और विशिष्ट "ग्राउंड-ट्रुथ" दुर्बलताओं को खोजने का कार्य सौंपा जाता है। सफलता को रिकॉल द्वारा मापा जाता है—मूल रूप से कोड की समीक्षा करने वाले मानव विशेषज्ञों की तुलना में AI ने कितनी वास्तविक बग्स पकड़ीं?

पैच मोड (द इंजीनियर)

एक बग मिलने के बाद, क्या AI इसे ठीक कर सकता है? इस मोड में, एजेंट को दुर्बलता को हटाने के लिए कोड में परिवर्तन करना होगा।() हालाँकि, एक चुनौती है: "पैच" को मूल कार्यक्षमता को बरकरार रखना होगा।() यदि AI बग को ठीक कर देता है लेकिन कॉन्ट्रैक्ट की प्राथमिक सुविधाओं को तोड़ देता है, तो यह असफल हो जाता है।

एक्सप्लॉइट मोड (द रेड टीमर)

यह सबसे अधिक "वास्तविक" सेटिंग है। एक स्थानीय, सैंडबॉक्स किए गए ईथेरियम वातावरण में (एक टूल एनविल का उपयोग करके), AI को फंड निकालने वाले हमले को सफलतापूर्वक निष्पादित करना होगा। बेंचमार्क प्रोग्रामेटिक रूप से जांचता है कि "हमलावर" ने वास्तव में आवेदित फंड्स को स्थानांतरित कर दिया है या नहीं।

EVMbench के लिए अक्सर पूछे जाने वाले प्रश्न

क्या EVMbench वास्तविक पैसे या लाइव नेटवर्क का उपयोग करता है?

नहीं। EVMbench पूरी तरह से अलग, स्थानीय वातावरण में चलता है। यह ईथेरियम वर्चुअल मशीन का एक "कंटेनराइज्ड" संस्करण उपयोग करता है, जिसका अर्थ है कि AI एजेंट बिना किसी वास्तविक वित्तीय जोखिम या कानूनी परिणाम के "धन निकालने" का प्रयास कर सकते हैं।

OpenAI और Paradigm ने इसे क्यों जारी किया?

एआई सुरक्षा के लिए एक "मानकीकृत मापदंड" बनाने के लिए। बेंचमार्क को ओपन-सोर्स करके, वे पूरे क्रिप्टो समुदाय को एआई क्षमताओं को ट्रैक करने की अनुमति दे रहे हैं और दुष्ट एजेंट्स इस प्रौद्योगिकी का दुरुपयोग करने से पहले डेवलपर्स को एआई-सहायता वाले ऑडिटिंग टूल्स बनाने के लिए प्रोत्साहित कर रहे हैं।

क्या एआई एजेंट अब मानव स्मार्ट कॉन्ट्रैक्ट ऑडिटर्स को प्रतिस्थापित कर सकते हैं?

अभी नहीं। जबकि AI को संकेत दिए जाने पर विशिष्ट "घास के ढेर में सूई ढूंढने" में उत्कृष्ट है, यह पूरे परितंत्र की व्यापक ऑडिट में अभी भी कठिनाई का सामना कर रहा है। मानवीय निगरानी अभी भी स्मार्ट कॉन्ट्रैक्ट सुरक्षा का "अंतिम बॉस" है।

इन रिपोर्ट्स में उल्लिखित "Vibe-Coding" जोखिम क्या है?

"Vibe-coding" का अर्थ है डेवलपर्स द्वारा AI का उपयोग करके तेजी से कोड उत्पन्न करना और गहन मैनुअल समीक्षा के बिना इसे डिप्लॉय करना। हाल के दुरुपयोग (जैसे $1.78M Moonwell घटना) दर्शाते हैं कि जब मनुष्य "रबर-स्टैम्प" AI कोड को बहुत तेजी से करते हैं, तो महत्वपूर्ण तर्क त्रुटियाँ मेननेट तक पहुँच सकती हैं।

मैं अपने खुद के AI एजेंट्स का परीक्षण करने के लिए EVMbench का उपयोग कैसे कर सकता हूँ?

पूरा फ्रेमवर्क ओपन-सोर्स है और GitHub पर उपलब्ध है। डेवलपर्स डेटासेट डाउनलोड कर सकते हैं, स्थानीय Docker/Anvil वातावरण सेटअप कर सकते हैं, और अपने खुद के एजेंट्स को Detect, Patch, और Exploit पाइपलाइन के माध्यम से चला सकते हैं।

EVMbench क्या है? स्मार्ट कॉन्ट्रैक्ट सुरक्षा के लिए नया AI मानक

मुख्य बिंदु

EVMbench क्या है? स्मार्ट कॉन्ट्रैक्ट सुरक्षा के लिए नया AI मानक

EVMbench कैसे काम करता है?

डिटेक्ट मोड (द ऑडिटर)

पैच मोड (द इंजीनियर)

एक्सप्लॉइट मोड (द रेड टीमर)

EVMbench के लिए अक्सर पूछे जाने वाले प्रश्न

क्या EVMbench वास्तविक पैसे या लाइव नेटवर्क का उपयोग करता है?

OpenAI और Paradigm ने इसे क्यों जारी किया?

क्या एआई एजेंट अब मानव स्मार्ट कॉन्ट्रैक्ट ऑडिटर्स को प्रतिस्थापित कर सकते हैं?

इन रिपोर्ट्स में उल्लिखित "Vibe-Coding" जोखिम क्या है?

मैं अपने खुद के AI एजेंट्स का परीक्षण करने के लिए EVMbench का उपयोग कैसे कर सकता हूँ?