প্রধান প্রধান বিষয়গুলি
-
এআই দুর্নীতি প্রতিরোধকে ছাড়িয়ে গেছে: প্রাথমিক ফলাফল একটি "নিরাপত্তা ব্যবধান" দেখায়। ওপেনএআইয়ের GPT-5.3-Codex এক্সপ্লয়িট মোডে 72.2% সফলতার হার অর্জন করেছে, কিন্তু সেই একই বাগগুলির মাত্র প্রায় 41.5% ঠিক করেছে। বর্তমানে এআই একজন ডাক্তারের চেয়ে একজন ভালো হ্যাকার।
-
বাস্তব জগতের স্টেক: সিনথেটিক বেঞ্চমার্কের বিপরীতে, EVMbench উৎপাদন-মানের কোড ব্যবহার করে, যার মধ্যে Tempo ব্লকচেইন থেকে জটিল পরিস্থিতি অন্তর্ভুক্ত। এটি নিশ্চিত করে যে AI-কে "লাইভ-ফায়ার" পরিস্থিতিতে পরীক্ষা করা হচ্ছে, যেখানে লজিক ত্রুটি মিলিয়ন ডলারের ক্ষতির কারণ হতে পারে।
-
একটি প্রতিরক্ষামূলক কর্মপরিকল্পনা: বেঞ্চমার্কের সাথে সাথে, ওপেনএআই প্রতিরক্ষামূলক সাইবার নিরাপত্তা গবেষণার জন্য $10 মিলিয়ন API ক্রেডিট প্রতিশ্রুতি দিয়েছে। লক্ষ্য হলো নিশ্চিত করা যে, যতক্ষণ AI আরও শক্তিশালী হচ্ছে, "ভালো মানুষদের" AI-চালিত স্বয়ংক্রিয় অডিটর তৈরির জন্য প্রয়োজনীয় টুলস থাকবে, যা AI-চালিত আক্রমণকারীদের সাথে পাল্লা দিতে পারবে।
ইভিএমবেঞ্চ কী? স্মার্ট চুক্তি নিরাপত্তার জন্য নতুন এআই মানক
ওয়েব3-এর দ্রুত বিকাশশীল জগতে, নিরাপত্তা এখন শুধুমাত্র মানুষের প্রচেষ্টা নয়। ১৮ ফেব্রুয়ারি, ২০২৬-এ, ওপেনএআই এবং প্যারাডাইম EVMbench চালু করেছে, যা একটি ওপেন-সোর্স বেঞ্চমার্কিং ফ্রেমওয়ার্ক যা ইথেরিয়াম স্মার্ট চুক্তি নিরাপত্তার উচ্চ-ঝুঁকিপূর্ণ বিশ্বে এআই এজেন্টগুলির পারফরম্যান্স মূল্যায়নের জন্য ডিজাইন করা হয়েছে।
যেহেতু GPT-5.3-Codex এর মতো এআই মডেলগুলি কোড লেখা এবং কার্যকর করার ক্ষমতায় বাড়তে থাকছে, শিল্পটিকে এই এজেন্টগুলি কি বেশি ভালো প্রতিরক্ষক হয়ে উঠছে নাকি বেশি বিপজ্জনক আক্রমণকারী হয়ে উঠছে তা পরিমাপের একটি উপায়ের প্রয়োজন।
EVMbench কিভাবে কাজ করে?
EVMbench শুধু একটি সাধারণ কুইজ নয়; এটি একটি কঠোর, স্যান্ডবক্সড স্ট্রেস টেস্ট।() এটি 40টি বাস্তব-জগতের অডিট এবং সিকিউরিটি প্রতিযোগিতা (যেমন Code4rena) থেকে পাওয়া 120টি উচ্চ-গুরুত্বপূর্ণ দুর্বলতার ডেটাসেট ব্যবহার করে।
ফ্রেমওয়ার্কটি তিনটি ভিন্ন "মোড" জুড়ে এআই মডেলগুলির মূল্যায়ন করে যা একজন পেশাদার সিকিউরিটি অডিটরের কাজের প্রবাহকে প্রতিফলিত করে:
-
ডিটেক্ট মোড (দ্য অডিটর)
এআইকে একটি স্মার্ট চুক্তি রিপোজিটরি দেওয়া হয়েছে এবং নির্দিষ্ট "গ্রাউন্ড-ট্রুথ" ভালার্নুলেবিগুলি খুঁজে বার করার কাজ দেওয়া হয়েছে। সাফল্য পরিমাপ করা হয় রিকল দ্বারা—মূলত কোডটি যাচাই করেছিলেন মানুষের বিশেষজ্ঞদের তুলনায় এআই কতগুলি বাস্তব বাগ ধরতে পেরেছে?
-
প্যাচ মোড (দ্য ইঞ্জিনিয়ার)
একবার বাগ খুঁজে পাওয়ার পর, কি এআই এটি ঠিক করতে পারে? এই মোডে, এজেন্টকে দুর্বলতা সরিয়ে ফেলতে কোড পরিবর্তন করতে হবে।() তবে একটি বাধা আছে: "প্যাচ"টি মূল কার্যকারিতা বজায় রাখতে হবে।() যদি এআই বাগটি ঠিক করে কিন্তু চুক্তির প্রধান ফিচারগুলি ভাঙ্গে, তবে এটি ব্যর্থ হয়।
-
এক্সপ্লয়িট মোড (দ্য রেড টিমার)
এটি সবচেয়ে বেশি "বাস্তবসম্মত" সেটিং। একটি স্থানীয়, স্যান্ডবক্সড ইথেরিয়াম পরিবেশে (এনভিন নামক একটি টুল ব্যবহার করে), এআই-কে একটি ফান্ড-ড্রেনিং আক্রমণ সফলভাবে বাস্তবায়ন করতে হবে। বেঞ্চমার্কটি প্রোগ্রাম্যাটিকভাবে পরীক্ষা করে যে "আক্রমণকারী" কি প্রতিকৃতি ফান্ড স্থানান্তরিত করতে সক্ষম হয়েছে।
ইভিএমবেঞ্চের জন্য প্রায়শই জিজ্ঞাসিত প্রশ্নাবলী
ইভিএমবেঞ্চ কি বাস্তব টাকা বা লাইভ নেটওয়ার্ক ব্যবহার করে?
না। EVMbench একটি সম্পূর্ণ বিচ্ছিন্ন, স্থানীয় পরিবেশে চলে। এটি ইথেরিয়াম ভার্চুয়াল মেশিনের একটি "কন্টেইনারাইজড" সংস্করণ ব্যবহার করে, যার অর্থ হল এআই এজেন্টগুলি "ফান্ড খায়" চেষ্টা করতে পারে বিনা বাস্তব-বিশ্ব আর্থিক ঝুঁকি বা আইনি পরিণতির।
ওপেনএআই এবং প্যারাডাইম এটি কেন প্রকাশ করল?
এআই নিরাপত্তার জন্য একটি "মানকীকৃত মাপকাঠি" তৈরি করতে। বেঞ্চমার্কটি ওপেন-সোর্স করে তারা সমগ্র ক্রিপ্টো সম্প্রদায়কে এআই-এর ক্ষমতা ট্র্যাক করতে দিচ্ছে এবং খারাপ অভিনেতাদের প্রযুক্তিটি অস্ত্র হিসেবে ব্যবহার করার আগে ডেভেলপারদের এআই-সহায়িত অডিটিং টুল তৈরির জন্য উৎসাহিত করছে।
এখন এআই এজেন্টগুলি মানুষের স্মার্ট চুক্তি অডিটরদের প্রতিস্থাপন করতে পারে?
এখনও নয়। যদিও এআই নির্দিষ্ট "কাঁটা ঘাসের মধ্যে খোঁজা" বাগগুলি খুঁজে বার করতে অসাধারণ, এটি সম্পূর্ণ বাস্তুতন্ত্রের সম্পূর্ণ অডিটে এখনও কঠিন পড়ে। মানব পর্যবেক্ষণ এখনও স্মার্ট চুক্তির নিরাপত্তার "শেষ বস"।
এই রিপোর্টগুলিতে উল্লিখিত "ভাইব-কোডিং" ঝুঁকি কী?
"ভাইব-কোডিং" বলতে ডেভেলপারদের কাছে এআই ব্যবহার করে দ্রুত কোড তৈরি করা এবং গভীর ম্যানুয়াল পরীক্ষা ছাড়াই এটি ডিপ্লয় করা বোঝায়। সম্প্রতি ঘটে যাওয়া হামলাগুলি (যেমন $1.78M মুনওয়েল ঘটনা) দেখিয়েছে যে মানুষ যখন এআই কোডকে খুব দ্রুত "রাবার-স্ট্যাম্প" করে, তখন গুরুত্বপূর্ণ লজিক ত্রুটিগুলি মেইননেটে চলে যায়।
আমি কিভাবে আমার নিজের AI এজেন্টগুলি পরীক্ষা করতে EVMbench ব্যবহার করব?
পুরো ফ্রেমওয়ার্ক ওপেন-সোর্স এবং GitHub-এ উপলব্ধ। ডেভেলপাররা ডেটাসেট ডাউনলোড করতে পারেন, একটি লোকাল Docker/Anvil পরিবেশ সেটআপ করতে পারেন এবং তাদের নিজস্ব এজেন্টগুলি Detect, Patch, এবং Exploit পাইপলাইনের মাধ্যমে চালাতে পারেন।
