Studi Mengungkap Agen Kripto AI Rentan terhadap Serangan Prompt-Injection

Saat agen AI — bot otonom yang dapat menjelajah, meneliti, berbelanja, dan bahkan melakukan perdagangan kripto — berpindah dari laboratorium ke sistem dunia nyata, para peneliti memperingatkan bahwa masalah rumit tetap ada: serangan prompt injection. Sebuah tim lintas institusi dari Universitas Teknologi Nanyang, ST Engineering, IBM Research, dan Universitas Illinois Urbana-Champaign melaporkan bahwa agen saat ini tetap sangat rentan terhadap serangan ini, dengan tidak ada konfigurasi yang diuji menunjukkan ketahanan konsisten. Apa itu prompt injection? - Prompt injection terjadi ketika penyerang menyembunyikan instruksi di dalam konten yang dibaca agen (halaman web, tautan, atau dokumen lainnya). Agen kemudian dapat mengikuti petunjuk tersembunyi penyerang alih-alih niat pengguna — risiko jelas ketika agen diizinkan bertindak otonom dalam tugas keuangan, seperti mengeksekusi perdagangan atau berinteraksi dengan dompet dan bursa. Apa yang dilakukan penelitian ini - Untuk mengevaluasi risiko dunia nyata secara lebih baik, para peneliti menciptakan StakeBench, sebuah benchmark yang menguji agen AI terhadap prompt injection dalam lingkungan online yang realistis. StakeBench berfokus pada apa yang disebut tim sebagai Indirect Prompt Injection — saluran yang relevan dalam penerapan di mana instruksi jahat disematkan dalam lingkungan yang ditemui agen. - StakeBench menguji tiga faktor utama yang memengaruhi dampak serangan: 1. Jarak semantik antara tujuan yang disisipkan dan niat asli pengguna (seberapa mirip atau berbeda tujuan tersembunyi tersebut). 2. Konsistensi petunjuk lingkungan sekitarnya (apakah konten yang disisipkan cocok secara alami ke dalam halaman atau sumbernya). 3. Kapan dalam jalur eksekusi agen pertama kali agen menemukan konten yang disisipkan. Apa yang mereka uji - Tim menjalankan 3.168 serangan simulasi menggunakan dua kerangka agen (NanoBrowser dan BrowserUse) yang dipasangkan dengan GPT-5 dan Gemini 2.5-Flash. Temuan utama - Serangan prompt injection langsung berhasil lebih dari 79% dari waktu di semua pengaturan yang diuji. - Tingkat keberhasilan prompt injection tidak langsung berkisar antara 41,67% hingga 68,16%, tergantung pada konteks dan ketiga faktor di atas. - Para peneliti menyoroti fenomena yang mereka sebut “parasitisme halus,” di mana agen tetap melakukan tugas yang diminta pengguna tetapi secara bersamaan memajukan tujuan penyerang — misalnya secara halus mengarahkan rekomendasi. Dalam skenario kripto, itu bisa berarti mendorong investor ke token tertentu atau mengeksekusi perdagangan yang menguntungkan penyerang tanpa tanda-tanda kompromi yang jelas. Mengapa ini penting untuk kripto - Agen otonom semakin banyak digunakan untuk mengurai data pasar, mengeksekusi perdagangan, mengelola dompet, dan berinteraksi dengan protokol DeFi. Kerentanan prompt injection oleh karena itu menciptakan permukaan serangan yang jelas: mulai dari rekomendasi token bias, rebalancing portofolio yang dimanipulasi, hingga kebocoran kredensial atau transaksi tidak sah. - Para peneliti menekankan bahwa risiko prompt injection bersifat “tergantung korban”: eksploitasi yang sama dapat memiliki konsekuensi sangat berbeda tergantung pada siapa atau apa yang diwakili agen, dan dampaknya dibentuk oleh keselarasan semantik dan arsitektur sistem — bukan hanya model bahasa dasarnya. Konteks dan insiden sebelumnya - Penelitian ini mengikuti serangkaian pengungkapan dunia nyata: Microsoft memperingatkan pada Februari tentang instruksi tersembunyi di tautan ringkasan AI; Google menggambarkan prompt injection halaman web yang mencoba membuat agen membocorkan kredensial atau mengirim pembayaran pada April; dan Microsoft baru-baru ini mengungkapkan kelemahan prompt injection di GitHub Action Claude Code milik Anthropic yang bisa membocorkan kredensial pengguna. Inti utama - Keamanan prompt-injection bukanlah satu sifat tunggal dari model, tetapi distribusi multi-dimensi dari bahaya yang dipengaruhi oleh pemangku kepentingan, keselarasan tugas, dan konteks penerapan. Bagi platform dan pedagang kripto yang mengandalkan agen otonom, penelitian ini adalah peringatan: evaluasi yang ketat dan berbasis konteks (seperti StakeBench) serta pertahanan yang lebih kuat diperlukan sebelum menyerahkan kendali atas dana atau kredensial dompet kepada agen-agennya.