النقاط الرئيسية
-
استغلال الذكاء الاصطناعي يتفوق على الدفاع: تُظهر النتائج المبكرة وجود "فجوة أمنية". حقق GPT-5.3-Codex من OpenAI معدل نجاح مذهل بلغ 72.2% في وضع الاستغلال، لكنه أصلح فقط حوالي 41.5% من هذه الأخطاء نفسها بشكل صحيح. الذكاء الاصطناعي حاليًا مخترق أفضل من كونه طبيبًا.
-
مُخاطَبَات واقعية: على عكس المعايير الاصطناعية، يستخدم EVMbench كودًا من مستوى الإنتاج، بما في ذلك سيناريوهات معقدة من سلسلة Tempo. وهذا يضمن اختبار الذكاء الاصطناعي على سيناريوهات "حقيقية" حيث يمكن أن تؤدي أخطاء المنطق إلى خسائر بالملايين.
-
دعوة دفاعية للعمل: إلى جانب المعيار، التزمت OpenAI بـ 10 ملايين دولار من ائتمانات واجهة برمجة التطبيقات لأبحاث الأمن السيبراني الدفاعي. الهدف هو ضمان أن مع تزايد قوة الذكاء الاصطناعي، يمتلك "الأطراف الجيّدة" الأدوات اللازمة لبناء مدققين آليين مدعومين بالذكاء الاصطناعي قادرين على مواكبة المهاجمين المدعومين بالذكاء الاصطناعي.
ما هو EVMbench؟ المعيار الجديد للذكاء الاصطناعي لأمان العقود الذكية
في عالم الويب 3 الذي يتطور بسرعة، لم يعد الأمان مجرد مجهود بشري. في 18 فبراير 2026، أعلنت OpenAI وParadigm عن إطلاق EVMbench، إطار عمل مفتوح المصدر مصمم لتقييم كيفية تعامل وكلاء الذكاء الاصطناعي مع عالم عقود إيثريوم الذكية عالي المخاطر.
مع تزايد قدرة نماذج الذكاء الاصطناعي مثل GPT-5.3-Codex على كتابة وتنفيذ الكود، تحتاج الصناعة إلى طريقة لقياس ما إذا كانت هذه الوكلاء تصبح مدافعين أفضل أم مهاجمين أكثر خطورة.
كيف يعمل EVMbench؟
EVMbench ليست مجرد اختبار بسيط؛ بل هي اختبار ضغط صارم في بيئة معزولة. () تستخدم مجموعة بيانات تضم 120 ثغرة ذات خطورة عالية تم جمعها من 40 مراجعة وأمنًا واقعيًا ومسابقات أمنية (مثل Code4rena).
يُقيّم الإطار نماذج الذكاء الاصطناعي عبر ثلاث "أنماط" متميزة تُحاكي سير عمل مُدقق أمني محترف:
-
وضع الكشف (المدقق)
يُعطى الذكاء الاصطناعي مستودع عقود ذكية ومُكلَّف بالعثور على ثغرات محددة تُعد "حقائق أرضية". يُقاس النجاح من خلال الاستدعاء — كم عدد الثغرات الحقيقية التي اكتشفها الذكاء الاصطناعي مقارنةً بالخبراء البشريين الذين قاموا بمراجعة الكود أصلاً؟
-
وضع التصحيح (المهندس)
بمجرد اكتشاف خطأ، هل يمكن للذكاء الاصطناعي إصلاحه؟ في هذا الوضع، يجب على الوكيل تعديل الكود لإزالة الثغرة. () ومع ذلك، هناك ملاحظة: يجب أن يحافظ "التصحيح" على الوظيفة الأصلية. () إذا أصلح الذكاء الاصطناعي الخطأ لكنه كسر الميزات الأساسية للعقد، فإنه يفشل.
-
وضع الاستغلال (فريق الأحمر)
هذا هو الإعداد الأكثر "واقعية". في بيئة Ethereum محلية ومحصورة (باستخدام أداة تُسمى Anvil)، يجب على الذكاء الاصطناعي تنفيذ هجوم سحب الأموال بنجاح. يقوم المعيار التحققي تلقائيًا من نجاح "المهاجم" في نقل الأموال المحاكاة.
أسئلة شائعة حول EVMbench
هل يستخدم EVMbench أموالًا حقيقية أو شبكات حية؟
لا. يعمل EVMbench في بيئة محلية معزولة تمامًا. إنه يستخدم نسخة "مُحَزَّمة" من آلة إيثيريوم الافتراضية، مما يعني أن وكلاء الذكاء الاصطناعي يمكنهم محاولة "تفريغ الأموال" دون أي مخاطر مالية أو عواقب قانونية في العالم الحقيقي.
لماذا أصدرت OpenAI وParadigm هذا؟
لإنشاء "مقياس موحد" لأمن الذكاء الاصطناعي. من خلال جعل المعيار مفتوح المصدر، فإنهم يسمحون لجميع مجتمع التشفير بمتابعة قدرات الذكاء الاصطناعي وتشجيع المطورين على بناء أدوات تدقيق مدعومة بالذكاء الاصطناعي قبل أن يتمكن المهاجمون من توظيف هذه التقنية بشكل ضار.
هل يمكن لوكالات الذكاء الاصطناعي الآن استبدال مدققي العقود الذكية البشرية؟
ليس بعد. بينما يُعد الذكاء الاصطناعي ممتازًا في اكتشاف أخطاء محددة "مثل إيجاد إبرة في كومة قش" عند تزويده بمؤشرات، فإنه لا يزال يواجه صعوبات في إجراء مراجعات شاملة لأنظمة بيئية كاملة. لا يزال الإشراف البشري هو "الخبير النهائي" لأمان العقود الذكية.
ما هو خطر "البرمجة المبنية على الحالة المزاجية" المذكور في هذه التقارير؟
يشير مصطلح "Vibe-coding" إلى المطورين الذين يستخدمون الذكاء الاصطناعي لإنشاء الكود بسرعة ونشره دون مراجعة يدوية عميقة. تُظهر الحوادث الأخيرة (مثل حادثة Moonwell بقيمة 1.78 مليون دولار) أنه عندما يُقرّر البشر بسرعة كود الذكاء الاصطناعي دون مراجعة، يمكن أن تمر أخطاء منطقية حرجة إلى الشبكة الرئيسية.
كيف يمكنني استخدام EVMbench لاختبار وكلائي الذكائيين الخاصين؟
الإطار الكامل مفتوح المصدر ومتوفر على GitHub. يمكن للمطورين تنزيل مجموعة البيانات، وإعداد بيئة محلية باستخدام Docker/Anvil، وتشغيل وكلائهم من خلال سير العمل الخاصة بالكشف والتصحيح والاستغلال.
