Studi Mengungkap Agen Perdagangan AI Rentan terhadap Serangan Prompt-Injection

Agen AI yang menjelajahi web, melakukan riset, berbelanja, atau bahkan perdagangan crypto secara otonom tetap sangat rentan terhadap serangan prompt injection, demikian peringatan dari studi multi-institusi terbaru. Para peneliti dari Nanyang Technological University, ST Engineering, IBM Research, dan University of Illinois Urbana-Champaign menguji berbagai setup agen dunia nyata dan menemukan bahwa tidak ada satupun yang mampu bertahan secara andal terhadap prompt injection—instruksi tersembunyi yang disisipkan dalam konten web yang menyebabkan agen mengikuti arahan penyerang alih-alih pengguna. Tim ini berargumen bahwa benchmark keamanan saat ini terlalu “berfokus pada serangan” dan mengabaikan bagaimana dampaknya bervariasi tergantung pada siapa atau apa yang dilayani oleh agen. Untuk mengisi kesenjangan ini, mereka membangun StakeBench, kerangka evaluasi baru yang menguji perilaku agen dalam lingkungan online yang realistis. Alih-alih hanya bertanya “apakah serangan ini bisa berhasil,” StakeBench mengukur kapan dan bagaimana serangan tersebut penting dengan memvariasikan tiga faktor yang relevan terhadap penerapan: - Jarak semantik: seberapa jauh tujuan yang disisipkan dari niat asli pengguna. - Konsistensi lingkungan: apakah petunjuk sekitar memperkuat atau bertentangan dengan instruksi yang disisipkan. - Titik eksekusi: di mana dalam tugas agen konten jahat muncul. Para peneliti menjalankan 3.168 serangan simulasi terhadap dua rangkaian alat agen berbasis web (NanoBrowser dan BrowserUse) dengan backbone GPT-5 dan Gemini 2.5-Flash. Hasilnya sangat mencemaskan: - Prompt injection langsung berhasil lebih dari 79% dari waktu di semua konfigurasi yang diuji. - Prompt injection tidak langsung—jenis yang lebih halus dan relevan secara penerapan—berhasil antara sekitar 41,7% hingga 68,2%. Mereka juga mendokumentasikan pola yang mengkhawatirkan yang mereka sebut “parasitisme halus”: agen menyelesaikan tugas yang diminta pengguna sambil secara bersamaan memajukan tujuan tersembunyi penyerang. Dalam praktiknya, ini bisa berarti agen tetap membeli apa yang diminta pengguna sambil secara halus mengarahkan rekomendasi, mengalihkan pedagang ke token favorit, membocorkan kredensial, atau mengotorisasi pembayaran yang tidak diinginkan—semuanya tanpa tanda-tanda kompromi yang jelas. Studi ini muncul di tengah serangkaian insiden prompt injection dunia nyata. Awal tahun ini, Microsoft menandai instruksi tersembunyi dalam tautan ringkasan AI, Google menunjukkan injeksi halaman web yang mencoba memaksa agen untuk membocorkan kredensial atau mengirim dana, dan Microsoft kemudian melaporkan kelemahan prompt injection di GitHub Action Claude Code milik Anthropic yang berisiko mengekspos kredensial pengguna. Poin utama bagi platform dan pedagang crypto: - Prompt injection bukan hanya eksploitasi teknis; dampaknya bergantung pada pemangku kepentingan, keselarasan antara serangan dan tugas pengguna, serta bagaimana agen dirancang dan diterapkan. - Agen perdagangan otonom dan dompet adalah target menarik: sebuah injeksi yang secara halus memiringkan rekomendasi, memodifikasi routing pesanan, atau menangkap kunci bisa berubah menjadi kerugian finansial langsung. Apa yang harus dipertimbangkan operator: - Perlakukan output agen dan semua konten yang mereka analisis sebagai input tidak tepercaya; terapkan sanitasi, pemeriksaan asal-usul, dan penegakan kebijakan konten. - Tambahkan deteksi dan pemantauan runtime untuk perilaku mengikuti instruksi yang tidak biasa, serta pertahankan peran manusia untuk tindakan berisiko tinggi (transfer besar, panggilan API berwewenang). - Gunakan benchmark seperti StakeBench untuk mengevaluasi penerapan di bawah model ancaman realistis yang bergantung pada pemangku kepentingan, dan perkuat lapisan orkestrasi agen, bukan hanya model dasar. Kesimpulan akhir penulis: risiko prompt injection bukanlah skor kerentanan tunggal dari sebuah model, tetapi distribusi kerugian yang ditentukan oleh penyerang, target, konteks, dan pilihan penerapan. Bagi dunia crypto—di mana uang dan kunci sedang dipertaruhkan—distribusi ini bisa dengan cepat menjadi kenyataan yang mahal.