Peneliti Google dan Meta memperingatkan bahwa agen AI harus diperlakukan sebagai sistem yang tidak dipercaya

Peneliti Google dan Meta mengatakan bahwa keandalan model AI saja tidak dapat menjamin keamanan sistem agen.
Sebelas serangan dunia nyata menunjukkan bahwa prompt injection selalu melewati pertahanan tingkat model.
Agen memerlukan pemisahan data instruksi, sandboxing hak akses terendah, dan kontrol aliran informasi.

Sebuah makalah penelitian dari para ilmuwan di Google, Meta, UC San Diego, dan beberapa universitas mengambil posisi langsung yang menantang bagaimana industri saat ini mendekati keamanan agen AI.

Makalah tersebut, berjudul Agent Security Is a Systems Problem, berargumen bahwa memperlakukan model AI sebagai lapisan keamanan utama pada dasarnya tidak cukup. Model yang mendasari agen apa pun harus diperlakukan sebagai komponen yang tidak dipercaya, sama seperti sistem operasi memperlakukan proses eksternal, dengan keamanan ditegakkan pada tingkat sistem di sekitarnya.

“Upaya untuk meningkatkan ketahanan model tidak cukup sendiri,” tulis para peneliti. “Kami harus melengkapi upaya yang ada dengan teknik dari domain keamanan sistem.”

Mengapa Pendekatan Saat Ini Terus Gagal

Para peneliti menganalisis sebelas serangan dunia nyata terhadap agen AI dan menemukan pola yang sama setiap kali. Pengembang percaya bahwa model AI dapat mengawasi dirinya sendiri. Penyerang menemukan cara untuk mengelakinya.

Dua kasus terdokumentasi menggambarkan masalah ini. Serangan terhadap fitur memori ChatGPT memungkinkan penyerang menyisipkan instruksi jahat melalui dokumen biasa, menyebabkan sistem secara terus-menerus mengirim percakapan pengguna ke server eksternal melalui URL gambar yang tidak terlihat.

Serangan Claude Code menggunakan prompt injection yang disembunyikan di dalam file kode untuk mengekstraksi kunci API dan mengekstraknya melalui query DNS menggunakan perintah ping, yang telah diizinkan tanpa persetujuan manusia.

Dalam kedua kasus tersebut, model tidak memiliki mekanisme andal untuk menghentikan serangan karena instruksi jahat tidak dapat dibedakan dari instruksi sah pada tingkat model.

Tiga Prinsip yang Diabaikan Industri

Para peneliti mengidentifikasi tiga prinsip keamanan inti dari puluhan tahun keamanan sistem yang secara konsisten gagal diimplementasikan oleh penerapan AI:

Instruksi dan data pemisahan: Instruksi tepercaya dan data eksternal yang tidak tepercaya mengalir melalui aliran token yang sama tanpa pemisahan, membuat injeksi prompt secara struktural memungkinkan.
Sandboxing hak akses paling minimal: Agen secara rutin dideploy dengan akses ke perintah shell, sistem file, dan API yang jauh melebihi apa yang dibutuhkan untuk tugas tertentu.
Kontrol aliran informasi: Data sensitif dapat bocor melalui saluran tidak langsung meskipun ada kontrol akses.

Masalah yang Lebih Besar

Agen AI tidak memiliki penilaian dan tidak memiliki insting self-preservation. Mereka akan menjelajahi setiap direktori yang dapat mereka akses dengan kecepatan mesin. Mereka akan mengeksekusi instruksi apa pun yang sampai kepada mereka jika sistem mengizinkannya.

Infrastruktur keamanan yang dibangun di sekitar aktor manusia tidak pernah dirancang untuk ini. Sampai dibangun ulang untuk aktor mesin, setiap organisasi yang menerapkan agen dengan akses ke sistem produksi sedang menanggung risiko yang tidak dapat diukur sepenuhnya.

Terkait:Foresight Ventures: Agen AI Sedang Melangkah Melewati Chatbot Menuju Perdagangan

Disclaimer: Informasi yang disajikan dalam artikel ini hanya untuk tujuan informasi dan pendidikan. Artikel ini tidak merupakan nasihat keuangan atau nasihat apa pun. Coin Edition tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan konten, produk, atau layanan yang disebutkan. Pembaca disarankan untuk berhati-hati sebelum mengambil tindakan apa pun yang terkait dengan perusahaan.