Penyelidik Google dan Meta memperingatkan bahawa agen AI mesti diperlakukan sebagai sistem yang tidak dipercayai

Penyelidik Google dan Meta mengatakan ketahanan model AI sahaja tidak dapat menjamin sistem agen.
Sebelas serangan dunia nyata menunjukkan bahawa penyuntikan arahan mengelakkan pertahanan peringkat model setiap kali.
Agen memerlukan pemisahan data arahan, sandboxing hak paling rendah, dan kawalan aliran maklumat.

Sebuah kertas penyelidikan daripada saintis di Google, Meta, UC San Diego, dan beberapa universiti telah mengambil kedudukan langsung yang menentang cara industri sekarang mendekati keselamatan agen AI.

Kertas kerja ini, berjudul Agent Security Is a Systems Problem, berhujah bahawa memperlakukan model AI sebagai lapisan keselamatan utama adalah tidak mencukupi secara asas. Model yang menggerakkan sebarang agen sepatutnya dipandang sebagai komponen yang tidak dipercayai, sama seperti sistem pengendalian memperlakukan proses luaran, dengan keselamatan ditegakkan pada aras sistem di sekelilingnya.

“Usaha untuk meningkatkan ketahanan model tidak mencukupi sendiri,” tulis para penyelidik. “Kita perlu melengkapi usaha yang sedia ada dengan teknik dari domain keselamatan sistem.”

Mengapa Pendekatan Semasa Terus Gagal

Para penyelidik menganalisis sebelas serangan dunia nyata terhadap agen AI dan mendapati corak yang sama setiap kali. Pembangun mempercayai model AI untuk mengawal dirinya sendiri. Penyerang menemui cara untuk mengelakkannya.

Dua kes yang didokumenkan menggambarkan masalah ini. Serangan terhadap ciri memori ChatGPT membolehkan penyerang menyuntik arahan jahat melalui dokumen biasa, menyebabkan sistem terus menghantar perbualan pengguna ke pelayan luar melalui URL gambar yang tidak kelihatan.

Serangan Claude Code menggunakan penyuntikan arahan yang disembunyikan di dalam fail kod untuk mengekstrak kekunci antara muka pengaturcaraan aplikasi (API) dan menghantar keluar melalui soalan DNS menggunakan arahan ping, yang telah dibenarkan tanpa persetujuan manusia.

Dalam kedua-dua kes, model tidak mempunyai mekanisme yang boleh dipercayai untuk menghentikan serangan itu kerana arahan jahat tidak dapat dibezakan daripada arahan sah pada peringkat model.

Tiga Prinsip yang Diabaikan oleh Industri

Para penyelidik mengenal pasti tiga prinsip keselamatan utama daripada puluhan tahun keselamatan sistem yang selalu gagal dilaksanakan oleh pelaksanaan AI:

Arahan dan data dipisahkan: Arahan yang dipercayai dan data luar yang tidak dipercayai mengalir melalui aliran token yang sama tanpa pemisahan, menjadikan penyuntikan arahan secara struktur mungkin.
Pengasingan hak paling minimum: Agen sering dilancarkan dengan akses ke arahan shell, sistem fail, dan API yang jauh melebihi apa yang diperlukan untuk tugas tertentu.
Kawalan aliran maklumat: Data sensitif boleh bocor melalui saluran tidak langsung walaupun terdapat kawalan akses.

Masalah yang Lebih Besar

Agen AI tidak mempunyai penilaian dan tidak mempunyai insting pemeliharaan diri. Mereka akan meneroka setiap direktori yang mereka ada akses ke pada kelajuan mesin. Mereka akan melaksanakan sebarang arahan yang sampai kepada mereka jika sistem membenarkannya.

Infrastruktur keselamatan yang dibina di sekeliling pelaku manusia tidak pernah direka untuk ini. Sehingga ia dibina semula untuk pelaku mesin, setiap organisasi yang melaburkan agen dengan akses kepada sistem pengeluaran membawa risiko yang tidak dapat diukur sepenuhnya.

Berkaitan:Foresight Ventures: Agen AI Sedang Bergerak Melampaui Chatbot Ke Dalam Perdagangan

Penafian: Maklumat yang disajikan dalam artikel ini adalah semata-mata untuk tujuan maklumat dan pendidikan. Artikel ini tidak merupakan nasihat kewangan atau nasihat sebarang jenis. Coin Edition tidak bertanggungjawab atas sebarang kerugian yang ditanggung akibat penggunaan kandungan, produk, atau perkhidmatan yang disebutkan. Pembaca dinasihatkan untuk berhati-hati sebelum mengambil sebarang tindakan berkaitan syarikat tersebut.