Anthropic, Güvenlik Önlemleri Öncesi Opus 4.8 Tarayıcı Ajanı İçin %31,5'lik Ele Geçirme Oranını Açıkladı

Anthropic’ın en yeni AI tarayıcı aracını ele geçirmeye yönelik çabaların neredeyse üçte biri güvenlik önlemleri devreye girmeden önce başarılı oldu. Bu, bir kırmızı ekip Slack kanalından çıkan bir söylenti değil, Anthropic’ın kendi sistem kartında yayınladığı bir sayı.

Şirket, 28 Mayıs'ta 244 sayfadan oluşan ve dört agens yüzeyini kapsayan Claude Opus 4.8 sistem kartını yayınladı. Tarayıcı ajanı için ön koruma öncesi ele geçirme oranı %31,5 olarak kaydedildi. Bu, basitçe ifade edilirse: bir kötü niyetli aktör, model web tarayıcısı açıkken bir prompt enjeksiyon saldırısı yöneltirse, savunma katmanları etkin değilse, saldırı yaklaşık üçte biri zaman başarılı oluyor demektir.

Ön plan laboratuvarları arasında şeffaflık boşluğu

İşte bu. Bu 31,5% rakamı yalnız başına kötü görünüyor. Ancak Anthropic, bu ilkbaharda güvenlik uzmanlarına çalışmak için somut bir sayı veren tek öncü laboratuvar.

OpenAI, yalnızca bağlayıcıları kapsayan bir prompt enjeksiyonu açıklaması yayınladı. Google, konuyu model kartından alıp daha geniş bir güvenlik çerçevesi belgesine taşıyarak spesifikliği zayıflattı. Meta, hiçbir kapalı model kartı yayınlamadı.

Reklam

Güvenlik önlemlerinin aslında ne yaptığını

%31,5 rakamı, bir ön koruma ölçümüdür ve bu önemli bir bağlamdır. Bu rakam, Anthropic’in katmanlı savunmaları devreye girmeden önce modelin ham zafiyet yüzeyini temsil eder.

İlgili model olan Opus 4.5 üzerindeki koruma sonrası testler, saldırı başarı oranlarının yaklaşık %1'e düştüğünü gösterdi. Bu, korumasız temel seviyeye göre yaklaşık %97'lik bir düşüştür.

Ajan yeteneklerine sahip yapay zeka sistemleri için en önemli güvenlik sorunu hala girişim enjeksiyonudur. Bir model, bir kullanıcının adına web sitelerini tarayabilir, formları doldurabilir veya çok adımlı görevleri gerçekleştirebilir; başarılı bir enjeksiyon, bu tüm ajanlığı bir saldırganın hedeflerine yönlendirebilir.

Anthropic’ın önceki sistem kartları, Opus 4.7 raporu da dahil olmak üzere, nicelleştirilmiş enjeksiyon direnci metriklerini de içeriyordu. Şirket, bu sayıları tutarlı bir şekilde yayınlamaya devam ederek, verileri tek bir anlık görüntü yerine zamanla bir eğilim çizgisi olarak daha faydalı hale getirmiştir.

Bu, kripto ve AI entegreli platformlar için neden önemli

Kripto endüstrisi, yapay zeka ajanları entegrasyonlarıyla başı dönmeyecek kadar derin. Özerk işlem botları, yapay zeka destekli portföy yöneticileri, zincir üstü veri analizcileri ve doğal dil talimatlarına dayalı işlem yürüten DeFi ajanları, düzinelerce protokolde ya canlı durumda ya da geliştirme aşamasında.

31,5% önceden koruma kaçırma oranı, bu ürünler geliştiren her ekibi duraklatmalıdır. AI aracınız dış veri kaynaklarını tarıyorsa, potansiyel düşmanca akıllı sözleşmelerden zincir içi içeriği ayrıştırıyorsa veya forumlarda ve sosyal platformlarda kullanıcı tarafından oluşturulan içeriği okuyorsa, tetik enjeksiyonu teorik bir risk değil, ölçülmüş bir risktir.

%1'e yakın olan koruma sonrası iyileştirme teşvik edici, ancak bir uyarı içeriyor. Bu sayı, Anthropic'in kendi test ortamından geliyor. Gerçek dünya uygulama koşullarında, ajanlar karışıksız, kontrolsüz web içeriğiyle etkileşime girerken, rakipler milyonlarca dolarla ölçülür finansal teşviklere sahiptir; bu durum, bir kırmızı ekip egzersizinden farklı şekilde bu savunmaları zorlayacaktır.

Yapay zeka ile ilgili kripto projelerini değerlendiren yatırımcılar için, laboratuvarlar arasındaki şeffaflık farkı kendisi bir sinyaldir. Claude modelleri üzerine inşa edilen protokoller, en azından yayınlanan güvenlik verilerine işaret edebilir ve azaltma stratejilerini açıklayabilir. Karşılaştırılabilir verileri yayınlamamış laboratuvarların modellerine dayanan projeler, kullanıcıların bir siyah kutuya güvenmesini istiyor.