Anthropic'ın en yeni modeline, web tarayıcısı açıkken bir kırmızı takım üyesi yönlendirildiğinde, saldırgan %31,5 oranında başarılı bir şekilde modeli ele geçirdi. Bu, savunma önlemleri devreye girmeden önce Claude Opus 4.8'in tarayıcı aracının prompt enjeksiyonu başarı oranı.
Laboratuvarlar arasındaki şeffaflık boşluğu
Anthropic, 28 Mayıs'ta 244 sayfalık bir güvenlik raporu yayınladı ve bu raporda web tarayıcılık, kod yazma, diğer AI ajanlarıyla koordinasyon ve dış araçlarla etkileşim olmak üzere dört ayrı ajan yüzeyi ele alındı.
OpenAI, yalnızca bir yüzeyde: bağlayıcılar üzerinde rapor verdi. Google, konuyu tamamen model kartından çıkarıp ayrı bir güvenlik çerçevesi belgesine taşıdı. Meta, kapalı bir model kartı hiç sunmadı.
31,5% sayısı, önlemlerden önceki durumu gösterir; yani Anthropic'in savunma katmanları devreye girmeden önceki modelin doğrudan zafiyetini temsil eder. Her üretim dağıtımı, gerçek dünyada exploit oranlarını azaltan koruma sistemleri, izleme ve filtreleme içerir. Ancak temel zafiyet düzeyini bilmek, güvenlik mimarlarının bu koruma sistemlerini doğru şekilde oluşturmak için ihtiyaç duyduğu tam türdeki veridir.
Opus 4.8'in aslında farklı yaptığı şey
Kod hatalarında yanlış olumsuz sonuçlar, modelin kendi hatalarını tespit edememesi, %19,7'den %3,7'ye düştü. Opus 4.8, aynı anda yüzlerce alt ajanı koordine ederek büyük yazılım projelerini yönetmek için ölçeklenebilir dinamik çok ajan orchestrasyonunu da tanıtmaktadır.
Neden kripto dikkat etmelidir
Browser tabanlı ajanlar için %31,5 önceden koruma hırsızlık oranı, kripto alanında AI sistemleri çalıştıran herkesi duraklatmalıdır. Browser ajanları, kripto projelerinin izleme panelleri için, zincir içi verileri kazıma için, DEX ön uçlarıyla etkileşim kurmak için ve web arayüzleri aracılığıyla işlem yapmak için tam olarak kullandığı araçlardır.
Bir tarayıcı aracısında prompt enjeksiyonu, kötü niyetli bir web sitesi, compromised bir API yanıtı veya hatta akıllıca oluşturulmuş bir token adı, bir AI aracısının davranışını yönlendirebilir. Geleneksel yazılımlarda bu, bir veri ihlalidir. Kripto para dünyasında ise bu, boşaltılmış bir cüzdan demektir.
Çok ajanlı koordinasyon, ek bir karmaşıklık katmanı ekler. Opus 4.8, yüzlerce alt ajanı koordine ederken, tek bir başarılı girişim enjeksiyonu tüm iş akışını etkileyebilir. Bir kripto bağlamında, bu, tek bir compromised işlem ile tamamen otomatiklenmiş bir alım satım operasyonunda sistemik bir arızanın arasındaki farktır.
