Google ve Meta Araştırmacıları, AI Ajanların Güvenilmeyen Sistemler Olarak Ele Alınması Gerektiğini Uyardı

Google ve Meta araştırmacıları, AI modelinin dayanıklılığının yalnızca ajan sistemlerini güvence altına alamayacağını söylüyor.
On bir gerçek dünya saldırısı, talimat enjeksiyonunun model seviyesi korumalarını her seferinde geçtiğini gösteriyor.
Ajanlar, talimat verisi ayrımı, en az yetki ile sandboxlama ve bilgi akışı kontrolü gerektirir.

Google, Meta, UC San Diego ve birkaç üniversitenin bilim insanlarından oluşan bir araştırma kağıdı, endüstrinin şu anda AI ajan güvenliği yaklaşımını doğrudan sorgulayan bir pozisyon aldı.

Argüman sunulan, "Ajan Güvenliği Bir Sistem Sorunudur" başlıklı makale, AI modellerini temel güvenlik katmanı olarak görmemenin temel olarak yetersiz olduğunu savunuyor. Herhangi bir ajanı çalıştıran model, işletim sisteminin dış bir işlemi对待 ettiği gibi, güvenilmeyen bir bileşen olarak ele alınmalı ve güvenlik, bu modelin etrafında sistem düzeyinde uygulanmalıdır.

Araştırmacılar, “Model dayanıklılığını artırmaya yönelik çabalar yalnız başına yetersizdir,” yazdı. “Mevcut çabaları sistem güvenliği alanından gelen tekniklerle tamamlamalıyız.”

Neden Geçerli Yaklaşım Başarısız Olmaya Devam Ediyor

Araştırmacılar, AI agenleri üzerinde on bir gerçek dünya saldırısını inceledi ve her seferinde aynı kalıbı buldu. Geliştiriciler, AI modelinin kendi kendini denetlemesine güveniyorlardı. Saldırganlar bunun etrafına yollar buldular.

İki belgelenmiş vaka, sorunu göstermektedir. Bir ChatGPT bellek özelliği saldırısı, bir normal belge aracılığıyla zararlı talimatlar enjekte etmeyi mümkün kıldı ve sistem, görünmez bir görüntü URL'si aracılığıyla kullanıcı görüşmelerini sürekli olarak dış bir sunucuya göndermeye başladı.

Bir Claude Code saldırısı, API anahtarlarını çıkarmak ve ping komutu aracılığıyla DNS sorgusuyla dışa aktarmak için bir kod dosyası içinde gizlenmiş bir istek enjeksiyonu kullandı; bu işlem insan onayı olmadan izin verilmişti.

Her iki durumda da, model düzeyinde zararlı talimatlar, meşru talimatlardan ayırt edilemediği için modelin saldırıyı durdurmak için güvenilir bir mekanizması yoktu.

Endüstri tarafından無視 edilen Üç İlke

Araştırmacılar, AI uygulamalarının sürekli olarak uygulayamadığı on yıllarca sistem güvenliğinden ortaya çıkan üç temel güvenlik ilkesini belirledi:

Talimat ve veri ayrımı: Güvenilir talimatlar ve güvensiz dış veriler, ayrım olmadan aynı token akışı üzerinden akar, bu da istek enjeksiyonunu yapısal olarak mümkün kılar.
En az yetki sandboxlama: Araçlar, herhangi bir görev için gerekli olanın çok ötesindeki kabuk komutlarına, dosya sistemlerine ve API'lere erişimle yaygın şekilde dağıtılır.
Bilgi akışı kontrolü: Erişim kontrolleri olsa bile, hassas veriler dolaylı kanallar aracılığıyla sızabilir.

Daha Büyük Sorun

AI agenteri hiçbir yargıya ve kendini koruma dürtüsüne sahip değildir. Erişebildikleri her dizini makine hızında keşfederler. Sistem izin veriyorsa, onlara ulaşan her talimatı yerine getirirler.

İnsan aktörler etrafında inşa edilen güvenlik altyapısı bunun için asla tasarlanmamıştır. Makine aktörleri için yeniden inşa edilene kadar, üretim sistemlerine erişime sahip agenter dağıtan her kurum, tam olarak ölçemeyeceği bir risk taşımaktadır.

İlgili:Foresight Ventures: Yapay Zeka Ajanları, Sohbet Botlarından Ticarete Doğru İlerliyor

Sorumluluk Reddi: Bu makalede sunulan bilgiler yalnızca bilgilendirme ve eğitim amaçlıdır. Makale, finansal danışmanlık veya herhangi bir türde danışmanlık oluşturmaz. Coin Edition, bahsedilen içerik, ürün veya hizmetlerin kullanılması sonucu oluşan herhangi bir kayıp için sorumlu değildir. Okuyucular, şirkete ilişkin herhangi bir eylemde bulunmadan önce dikkatli olmaları tavsiye edilir.