Kajian Menunjukkan Agen AI Masih Rentan Terhadap Serangan Injeksi Prompt

Laporan CoinGape:

Seiring dengan semakin pesatnya pelaksanaan agen AI yang boleh mengakses internet secara mandiri, mencari maklumat, berbelanja, dan bahkan menjalankan transaksi kripto, satu kajian terkini menunjukkan bahawa sistem-sistem ini masih kekurangan perlindungan yang stabil terhadap serangan penyuntikan petunjuk.

Kajian ini dijalankan oleh pasukan dari Nanyang Technological University, ST Engineering, IBM Research, dan University of Illinois Urbana-Champaign. Para penyelidik menyatakan bahawa dalam sampel ujian, tiada satu pun agen AI yang mampu menahan serangan semacam ini secara konsisten.

Kejayaan serangan langsung melebihi 79%

Penyuntikan petunjuk merujuk kepada penyerang yang menyisipkan arahan tersembunyi ke dalam laman web, teks, atau kandungan luar lain, untuk menggoda agen AI menyimpang daripada matlamat asal pengguna dan sebaliknya melaksanakan tindakan yang ditetapkan oleh penyerang.

Untuk mendekati persekitaran penggunaan sebenar, pasukan penyelidik telah membangunkan piawaian ujian bernama StakeBench untuk menilai prestasi agen AI semasa diserang dalam tugas dalam talian. Ujian ini meliputi dua kerangka agen, NanoBrowser dan BrowserUse, serta menggabungkan GPT-5 dan Gemini 2.5-Flash untuk menjalankan 3,168 simulasi serangan.

Rangka ujian termasuk NanoBrowser dan BrowserUse
Model ujian termasuk GPT-5 dan Gemini 2.5-Flash
Kejayaan serangan langsung melebihi 79% dalam semua konfigurasi

Perintah tersembunyi laman web masih berkesan

Hasil penyelidikan menunjukkan bahawa kejayaan serangan tidak langsung yang disematkan dalam kandungan laman web berada antara 41.67% hingga 68.16%. Serangan jenis ini lebih mendekati skenario pelaksanaan sebenar, kerana penyerang tidak perlu berinteraksi secara langsung dengan input pengguna, tetapi hanya perlu menyembunyikan arahan dalam kandungan laman web untuk mempengaruhi keputusan seterusnya oleh agen.

Pasukan memantau tiga faktor utama: jarak semantik antara sasaran suntikan dan tugas pengguna, keselarasan petunjuk persekitaran, serta tahap proses di mana agen pertama kali mengesan kandungan jahat. Kajian ini berpendapat bahawa semua faktor ini mempengaruhi kejayaan serangan.

Syarikat teknologi sebelum ini telah berulang kali memberi amaran

Sebelum penyelidikan ini dikeluarkan, risiko berkaitan telah disebut berulang kali oleh syarikat teknologi besar. Pada Februari tahun ini, penyelidik Microsoft memperingatkan bahawa arahan tersembunyi dalam pautan ringkasan AI boleh mempengaruhi tingkah laku chatbot. Google juga merekodkan kes suntikan petunjuk yang tersembunyi dalam laman web pada April, di mana serangan berkaitan cuba menggoda agen AI untuk mengungkapkan kelayakan atau memulakan pembayaran.

Microsoft kemudian mengungkapkan bahawa tindakan GitHub Claude Code dari Anthropic mempunyai kelemahan injeksi petunjuk yang boleh menyebabkan kredensial pengguna terdedah.

Kajian tersebut juga menyebutkan satu keadaan dikenali sebagai "parasit tersembunyi", di mana agen kelihatan menyelesaikan tugas pengguna, tetapi secara senyap memajukan objektif penyerang. Sebagai contoh, dalam skenario cadangan produk, sistem mungkin kelihatan memberi cadangan secara normal, tetapi secara halus mengarahkan pengguna ke produk tertentu.