Studi Menunjukkan Agen AI Masih Rentan terhadap Serangan Prompt Injection

Berita CoinWorld:

Seiring dengan semakin cepatnya penerapan agen AI yang dapat terhubung secara mandiri, mengakses informasi, berbelanja, bahkan menjalankan transaksi kripto, sebuah penelitian terbaru menunjukkan bahwa sistem semacam ini masih belum memiliki perlindungan yang stabil terhadap serangan prompt injection.

Penelitian ini dilakukan oleh tim dari Nanyang Technological University, ST Engineering, IBM Research, dan University of Illinois Urbana-Champaign. Para peneliti menyatakan bahwa dalam sampel pengujian, tidak ada satu pun agen AI yang mampu secara konsisten menahan serangan semacam ini.

Direct attack success rate exceeds 79%

Prompt injection adalah ketika penyerang menyisipkan instruksi tersembunyi ke dalam halaman web, teks, atau konten eksternal lainnya untuk membujuk agen AI menyimpang dari tujuan pengguna asli dan menjalankan tindakan yang ditetapkan oleh penyerang.

Untuk mendekati lingkungan penggunaan nyata, tim peneliti mengembangkan benchmark bernama StakeBench untuk mengevaluasi kinerja agen AI saat diserang dalam tugas daring. Pengujian mencakup dua kerangka agen, NanoBrowser dan BrowserUse, serta menggabungkan GPT-5 dan Gemini 2.5-Flash dalam 3.168 simulasi serangan.

Kerangka pengujian mencakup NanoBrowser dan BrowserUse
Model uji mencakup GPT-5 dan Gemini 2.5-Flash
Direct attack success rate exceeds 79% across all configurations

Perintah tersembunyi di halaman web masih dapat berfungsi

Hasil penelitian menunjukkan bahwa tingkat keberhasilan serangan tidak langsung yang disematkan dalam konten web berkisar antara 41,67% hingga 68,16%. Serangan semacam ini lebih mendekati skenario penerapan nyata, karena penyerang tidak perlu bersentuhan langsung dengan input pengguna; cukup menyembunyikan perintah dalam konten web, mereka dapat memengaruhi keputusan selanjutnya dari agen.

Tim secara khusus memantau tiga faktor: jarak semantik antara target injeksi dan tugas pengguna, apakah petunjuk lingkungan sekitar konsisten, serta pada tahap mana agen pertama kali terpapar konten jahat. Penelitian ini menyimpulkan bahwa ketiga faktor ini memengaruhi keberhasilan serangan.

Perusahaan teknologi sebelumnya telah beberapa kali memperingatkan

Sebelum penelitian ini dirilis, risiko terkait telah beberapa kali disebutkan oleh perusahaan teknologi besar. Pada Februari tahun ini, peneliti Microsoft memperingatkan bahwa instruksi tersembunyi dalam tautan ringkasan AI dapat memengaruhi perilaku chatbot. Pada April, Google juga mencatat kasus injeksi petunjuk yang tersembunyi di halaman web, di mana serangan terkait berusaha memancing agen AI untuk mengungkap kredensial atau memicu pembayaran.

Microsoft selanjutnya mengungkapkan bahwa GitHub Action Claude Code dari Anthropic memiliki kerentanan prompt injection yang dapat menyebabkan eksposur kredensial pengguna.

Penelitian juga menyebutkan adanya situasi yang disebut "parasit tersembunyi", di mana agen tampaknya menyelesaikan tugas pengguna, tetapi secara diam-diam juga memajukan tujuan penyerang. Misalnya, dalam skenario rekomendasi produk, sistem mungkin tampak normal memberikan saran, tetapi diam-diam mengarahkan pengguna ke produk tertentu.