اہم نکات

AI کا استعمال دفاع سے تیزی سے آگے نکل گیا ہے: ابتدائی نتائج ایک "سیکورٹی فرق" کو ظاہر کرتے ہیں۔ OpenAI کا GPT-5.3-Codex ایکسپلوٹ موڈ میں 72.2% کامیابی کی شرح حاصل کر گیا، لیکن انہی خطاوں میں سے صرف تقریباً 41.5% کو درست کیا۔ AI اب ایک ڈاکٹر کے مقابلے میں ایک بہتر ہیکر ہے۔
حقیقی دعوٰی: سنتیٹک معیارات کے برعکس، EVMbench پروڈکشن گریڈ کوڈ استعمال کرتا ہے، جس میں Tempo بلاک چین سے پیچیدہ سیناریوز شamil ہیں۔ اس سے یہ یقینی بنایا جاتا ہے کہ AI کو "لائیف فائر" سیناریوز پر ٹیسٹ کیا جا رہا ہے جہاں منطقی غلطیوں سے ملینڈالرز کا نقصان ہو سکتا ہے۔
ایک دفاعی اقدام کی فراخوانی: معیاری کے ساتھ، اوپن اے آئی نے دفاعی سائبر سیکیورٹی تحقیق کے لیے 10 ملین ڈالر کے API کریڈٹس کا عہد کیا ہے۔ مقصد یہ یقینی بنانا ہے کہ جب AI زیادہ طاقتور ہوتا جائے، تو "اچھے لوگوں" کے پاس AI ڈرائیون خودکار آڈٹرز بنانے کے لیے وسائل موجود ہوں جو AI ڈرائیون حملہ آوروں کے ساتھ قدم بہ قدم رہ سکیں۔

EVMbench کیا ہے؟ اسمارٹ کنٹریکٹ سیکیورٹی کا نیا AI معیار

ویب3 کی تیزی سے تبدیل ہونے والی دنیا میں، سیکورٹی اب صرف انسانی کوشش نہیں ہے۔ 18 فروری، 2026 کو، اوپن اے آئی اور پیراڈائگم نے EVMbench کا اطلاق کیا، جو ایک اوپن سورس بینچ مارکنگ فریم ورک ہے جو AI ایجنسز کو ایتھریم اسمارٹ کنٹریکٹ سیکورٹی کی اونچی جوکھم والی دنیا میں کیسے ہینڈل کرتے ہیں، اس کا جائزہ لینے کے لیے ڈیزائن کیا گیا ہے۔

جیسے جیسے GPT-5.3-Codex جیسے AI ماڈلز کوڈ لکھنے اور انجام دینے میں زیادہ صلاحیت رکھنے لگتے ہیں، صنعت کو یہ پیمانہ درکار ہے کہ یہ ایجنسٹس بہتر دفاعی افراد بن رہے ہیں یا زیادہ خطرناک حملہ آور۔

EVMbench کیسے کام کرتا ہے؟

EVMbench صرف ایک آسان کوئز نہیں ہے؛ یہ ایک سخت، سینڈ باکس کیا گیا اسٹریس ٹیسٹ ہے۔() اس میں 40 حقیقی دنیا کے آڈٹ اور سیکورٹی مقابلے (جیسے Code4rena) سے لی گئی 120 اعلیٰ شدت والی کمزوریوں کا ڈیٹا سیٹ استعمال کیا جاتا ہے۔

یہ فریم ورک AI ماڈلز کو تین مختلف "موڈز" پر جانچتا ہے جو ایک پیشہ ورانہ سیکورٹی آڈیٹر کے عمل کو ظاہر کرتے ہیں:

ڈیٹیکٹ موڈ (الآڈیٹر)

AI کو ایک اسمارٹ کنٹریکٹ ریپوزٹری دی جاتی ہے اور اس سے خاص "گراؤنڈ-ٹروتھ" کمزوریاں تلاش کرنے کا کام سونپا جاتا ہے۔ کامیابی کا اندازہ ریکال کے ذریعے کیا جاتا ہے — یعنی AI نے اصل میں کوڈ کی جانچ کرنے والے انسانی ماہرین کے مقابلے میں کتنی حقیقی خامیاں پکڑیں؟

پیچ موڈ (اینجینئر)

ایک بگ دریافت ہونے کے بعد، کیا AI اسے درست کر سکتا ہے؟ اس موڈ میں، ایجینٹ کو کوڈ کو تبدیل کرنا ہوگا تاکہ کمزوری ختم ہو جائے۔() تاہم، ایک پابندی ہے: "پیچ" کو اصل فنکشنلٹی کو برقرار رکھنا ہوگا۔() اگر AI بگ کو درست کر دے لیکن معاہدے کی بنیادی خصوصیات خراب کر دے، تو وہ ناکام ہو جائے گا۔

ایکسپلوٹ موڈ (ریڈ ٹیمر)

یہ سب سے زیادہ "واقعی" سیٹنگ ہے۔ ایک مقامی، سینڈ باکس شدہ ethereum ماحول (ایک ٹول جس کا نام Anvil ہے) میں، AI کو فنڈز کی چوری کرنے والے حملے کو کامیابی سے انجام دینا ہوگا۔ بینچ مارک پروگرامیٹک طور پر چیک کرتا ہے کہ "حملہ آور" نے واقعی محاکمہ شدہ فنڈز منتقل کر دیے ہیں یا نہیں۔

EVMbench کے لیے اکثر پوچھے جانے والے سوالات

کیا EVMbench حقیقی پیسہ یا لائیو نیٹ ورکس کا استعمال کرتا ہے؟

نہیں۔ EVMbench مکمل طور پر الگ، مقامی ماحول میں چلتا ہے۔ یہ ایتھریم ورچوئل مشین کا "کنٹینرائزڈ" ورژن استعمال کرتا ہے، جس کا مطلب ہے کہ AI ایجنسز "فندز کو خالی کرنے" کی کوشش کر سکتی ہیں بغیر کسی حقیقی دنیا کے مالی خطرے یا قانونی نتائج کے۔

اوپن اے آئی اور پیراڈائیم نے اسے کیوں جاری کیا؟

AI سیکیورٹی کے لیے ایک "معیاری پیمانہ" تیار کرنے کے لیے۔ جبکہ وہ بینچ مارک کو اوپن سورس کر رہے ہیں، وہ پورے کرپٹو کمیونٹی کو AI کی صلاحیتوں کا جائزہ لینے کی اجازت دے رہے ہیں اور بری بیٹر کے ذریعہ ٹیکنالوجی کو ہتھکنڈوں میں لینے سے پہلے ڈویلپرز کو AI مددگار آڈٹنگ ٹولز تعمیر کرنے کے لیے متوجہ کر رہے ہیں۔

کیا اب AI ایجینٹس انسانی اسمارٹ کنٹریکٹ آڈیٹرز کی جگہ لے سکتے ہیں؟

ابھی نہیں۔ جبکہ AI کو سُرنگوں کے درمیان خاص "سُرخی" کی تلاش کرنے کے لیے اچھی طرح سے مدد ملتی ہے، لیکن یہ پورے ایکو سسٹم کے جامع جائزے کے ساتھ اب بھی مشکل کا شکار ہے۔ انسانی نگرانی اب بھی اسمارٹ کنٹریکٹ سیکورٹی کا "آخری بوس" ہے۔

یہ رپورٹس میں ذکر کیا گیا "وائب-کوڈنگ" کا خطرہ کیا ہے؟

"Vibe-coding" کا مطلب ہے کہ ڈویلپرز AI کا استعمال کرکے تیزی سے کوڈ جنریٹ کرتے ہیں اور اسے گہری دستی جانچ کے بغیر ڈپلوی کردیتے ہیں۔ حالیہ حملوں (جیسے 1.78 ملین ڈالر کا Moonwell واقعہ) سے پتہ چلتا ہے کہ جب انسان AI کوڈ کو تیزی سے "ربر اسٹیمپ" کرتے ہیں، تو اہم منطقی خطاں مین نیٹ تک پہنچ سکتی ہیں۔

میں اپنے اپنے AI ایجنسز کو ٹیسٹ کرنے کے لیے EVMbench کا استعمال کیسے کر سکتا ہوں؟

پورا فریم ورک اوپن سورس ہے اور گٹھب پر دستیاب ہے۔ ڈویلپرز ڈیٹا سیٹ ڈاؤن لوڈ کر سکتے ہیں، ایک لوکل ڈاکر/این ویل ماحول ترتیب دے سکتے ہیں، اور اپنے اپنے ایجینٹس کو ڈیٹیکٹ، پیچ، اور ایکسپلوٹ پائپ لائن کے ذریعے چلا سکتے ہیں۔