Ana Çıkarımlar
-
AI Saldırısı Savunmayı Aşıyor: Erken sonuçlar bir "güvenlik boşluğu" gösteriyor. OpenAI’nin GPT-5.3-Codex, saldırı modunda %72,2 başarı oranı elde etti, ancak bu hataların sadece %41,5’ini doğru şekilde düzeltti. AI şu anda bir doktordan daha iyi bir haker.
-
Gerçek Dünya Stake'leri: Sentetik performans testlerinin aksine, EVMbench üretim seviyesinde kodları kullanır, Tempo blok zincirinden karmaşık senaryoları içerir. Bu, AI'nın mantık hatalarının milyonlarca dolarlık kayıplara yol açabileceği "canlı ateş" senaryolarında test edildiğinden emin olur.
-
Bir Savunma Çağrısı: Standartla birlikte, OpenAI savunma siber güvenlik araştırmaları için 10 milyon dolarlık API kredisi taahhüt etti. Amaç, yapay zekânın daha güçlü hale gelmesiyle birlikte, "iyi tarafların" yapay zeka tabanlı saldırganlarla uyumlu kalabilecek yapay zeka destekli otomatik denetçiler oluşturmak için gerekli araçlara sahip olmalarını sağlamaktır.
EVMbench nedir? Akıllı Sözleşmelerin Güvenliği İçin Yeni AI Standardı
Web3 dünyasının hızla gelişen ortamında, güvenlik artık sadece bir insan çabası değil. 18 Şubat 2026 tarihinde OpenAI ve Paradigm, EVMbench adlı, AI ajanlarının ethereum akıllı sözleşme güvenliği gibi yüksek riskli dünyayı nasıl yönettiğini değerlendirmek için tasarlanmış açık kaynaklı bir performans ölçüm çerçevesinin başlatıldığını duyurdu.
GPT-5.3-Codex gibi yapay zeka modelleri, kod yazma ve yürütme konusunda giderek daha yetenekli hale geldikçe, endüstri bu agenterin daha iyi savunucular mı yoksa daha tehlikeli saldırganlar mı olduğunun ölçülmesi için bir yöntem gerektiriyor.
EVMbench Nasıl Çalışır?
EVMbench sadece basit bir quiz değil; titiz, izole edilmiş bir stres testidir.() 40 gerçek dünya denetimi ve güvenlik yarışmasından (Code4rena gibi) alınan 120 yüksek ciddiyetteki zafiyet veri setini kullanır.
Çerçeve, profesyonel bir güvenlik denetçisinin iş akışını yansıtan üç farklı "Kip" boyunca AI modellerini değerlendirir:
-
Algılama Modu (Denetçi)
Yapay zeka, bir akıllı sözleşme deposu verilerek belirli "temel gerçek" açıkları bulmaya görevlendirilir. Başarı, kodu orijinal olarak denetleyen insan uzmanlara kıyasla yapay zekanın yakaladığı gerçek hataların sayısıyla ölçülür.
-
Düzelme Modu (Mühendis)
Bir hata bulunduğunda, AI bunu düzeltebilir mi? Bu modda, ajan, zafiyeti kaldırmak için kodu değiştirmelidir. () Ancak bir sakınca var: "düzeltme", orijinal işlevselliği korumalıdır. () AI hatayı düzeltsede, sözleşmenin temel özelliklerini bozarsa, başarısız olur.
-
Saldırı Modu (Kırmızı Takım Üyesi)
Bu, en "gerçekçi" ayar. Yerel, izole edilmiş bir Ethereum ortamında (Anvil adlı bir araç kullanarak), yapay zekânın fonları boşaltan bir saldırıyı başarıyla gerçekleştirmesi gerekir. Başarı ölçütü, "saldırganın" simüle edilen fonları gerçekten taşıyıp taşımadığını programatik olarak kontrol eder.
EVMbench için SSS
EVMbench gerçek para veya canlı ağlar mı kullanır?
Hayır. EVMbench, tamamen izole edilmiş, yerel bir ortamda çalışır. Ethereum Sanal Makinesinin "konteynerleştirilmiş" bir sürümünü kullanır, bu da AI ajanlarının gerçek dünya finansal riski veya yasal sonuçları olmadan "fonları boşaltmaya" çalışmasını sağlar.
OpenAI ve Paradigm bunu neden yayınladı?
AI güvenliği için "standartlaştırılmış bir ölçüt" oluşturmak. Ölçütü açık kaynak yaparak, tüm kripto topluluğunun AI yeteneklerini takip etmesini sağlıyor ve kötü niyetli aktörlerin teknolojiyi silah olarak kullanmadan önce geliştiricilerin AI destekli denetim araçları oluşturmasını teşvik ediyor.
Yapay zeka ajanları artık insan akıllı sözleşme denetçilerini yerine geçirebilir mi?
Henüz değil. AI, ipuçları verildiğinde belirli “iğneyle çuval arama” türündeki hataları bulmada harikadır, ancak tüm ekosistemlerin kapsamlı denetimleri konusunda hâlâ zorlanır. İnsan denetimi, akıllı sözleşme güvenliğinin hâlâ “son bossu”dur.
Bu raporlarda bahsedilen "Vibe-Coding" riski nedir?
"Vibe-coding", geliştiricilerin AI kullanarak kodu hızlıca üretip derin bir manüel inceleme yapmadan dağıttığı anlamına gelir. Son açıklar (örneğin, 1,78 milyon dolarlık Moonwell olayı), insanların AI kodunu çok hızlı bir şekilde "onayladığında" kritik mantık hatalarının ana ağa süzülebileceğini göstermektedir.
EVMbench'i kendi AI ajanlarımı nasıl test edebilirim?
Tüm çerçeve açık kaynaklıdır ve GitHub'da mevcuttur. Geliştiriciler, veri kümesini indirebilir, yerel bir Docker/Anvil ortamı kurabilir ve Kendi ajanlarını Tespit, Düzelt ve Saldırı akışları aracılığıyla çalıştırabilir.
