Çalışma, AI agente hala yönlendirme enjeksiyon saldırılarına karşı savunmasız olduğunu gösteriyor

CoinDesk tarafından rapor edildi:

Kendi kendine internete erişebilen, bilgi arayabilen, alışveriş yapabilen ve hatta kripto işlemlerini gerçekleştirebilen AI ajanların hızla hayata geçirilmesiyle birlikte, bu tür sistemlerin hala uyarı enjeksiyon saldırılarına karşı istikrarlı bir korumaya sahip olmadığı ortaya çıkmıştır.

Araştırma Nanyang Teknoloji Üniversitesi, ST Engineering, IBM Research ve Illinois Üniversitesi Urbana-Champaign ekibi tarafından yürütüldü. Araştırmacılar, test örneklerinde hiçbir AI ajanının bu tür saldırılarla sürekli olarak direnemediğini belirtti.

Doğrudan saldırı başarı oranı %79'u aşmaktadır

İnjection, saldırganın gizli komutları bir web sayfasına, metne veya diğer dış içeriklere yerleştirerek AI ajanlarını kullanıcı orijinal hedefinden saptırıp saldırganın belirlediği eylemleri gerçekleştirmesini zorlayan bir yöntemdir.

Daha gerçekçi kullanım ortamını simüle etmek için araştırma ekibi, AI ajanlarının çevrimiçi görevlerde saldırıya karşı performansını değerlendirmek için StakeBench adlı bir test benchmark’ı geliştirdi. Test, NanoBrowser ve BrowserUse adlı iki ajan çerçevesini kapsıyor ve GPT-5 ile Gemini 2.5-Flash kullanılarak 3.168 saldırı simülasyonu gerçekleştirildi.

Test çerçevesi NanoBrowser ve BrowserUse'u içerir.
Test modelleri GPT-5 ve Gemini 2.5-Flash içerir.
Tüm yapılandırmalarda doğrudan saldırı başarı oranı %79'un üzerinde.

Web sayfası gizli komutları hâlâ geçerli olmaya devam ediyor

Araştırma sonuçları, web sayfası içeriğine gömülü dolaylı saldırıların başarı oranının %41,67 ile %68,16 arasında olduğunu göstermektedir. Bu tür saldırılar, saldırganların kullanıcı girdisine doğrudan erişim gerektirmeden, komutları web sayfası içeriğine saklayarak ajanın sonraki kararlarını etkileyebilmesi nedeniyle gerçek dünya dağıtım senaryolarına daha yakındır.

Takım, üç faktörü odakla inceledi: hedefe enjekte edilen içerik ile kullanıcı görevi arasındaki semantik uzaklık, çevre ipuçlarının tutarlılığı ve akıllı sistemin zararlı içerikle ilk olarak hangi aşamada karşılaştığı. Araştırma, bu faktörlerin saldırının başarısını etkileyeceğini düşünmektedir.

Teknoloji şirketleri daha önce birçok kez uyarıda bulundu.

Bu araştırma yayınlanmadan önce, ilgili riskler büyük teknoloji şirketleri tarafından defalarca vurgulanmıştı. Microsoft araştırmacıları, Şubat ayında AI özet bağlantılarındaki gizli komutların sohbet robotlarının davranışını etkileyebileceğini uyarıdı. Google, Nisan ayında web sayfalarında saklanan ipucu enjeksiyonu örneklerini kaydetti ve ilgili saldırılar, AI ajanlarının kimlik bilgilerini açığa çıkarmasını veya ödemeler başlatmasını teşvik etmeye çalıştı.

Microsoft daha sonra, Anthropic'in Claude Code GitHub Eyleminin, kullanıcı kimlik bilgilerinin açığa çıkmasına neden olabilecek bir uyarı enjeksiyonu eksikliğine sahip olduğunu açıkladı.

Araştırma, akıllı ajanların kullanıcı görevini görünürde tamamlarken aynı zamanda saldırganın hedeflerini gizlice ilerlettiği “gizli parazitlik” durumuna da değinmektedir. Örneğin, ürün önerme senaryosunda sistem, görünüşte normal öneriler sunarken kullanıcıyı gizlice belirli bir ürüne yönlendirebilir.