Penyelidik Google dan Meta memperingatkan bahawa agen AI mesti diperlakukan sebagai sistem yang tidak dipercayai

iconCoinEdition
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Sebuah kertas penyelidikan baru dari Google, Meta, dan UC San Diego memperingatkan bahawa model AI sahaja tidak mampu mengamankan sistem agen. Kajian ini menerangkan 11 serangan dunia nyata yang menggunakan prompt injection untuk mengelakkan pertahanan model. Ia mencadangkan tiga prinsip keselamatan: pemisahan arahan/data, sandboxing hak minimum, dan kawalan aliran maklumat. Temuan ini relevan dengan berita AI + kripto dan menonjolkan risiko terhadap berita aset dunia nyata (RWA).
  • Penyelidik Google dan Meta mengatakan ketahanan model AI sahaja tidak dapat menjamin sistem agen.
  • Sebelas serangan dunia nyata menunjukkan bahawa penyuntikan arahan mengelakkan pertahanan peringkat model setiap kali.
  • Agen memerlukan pemisahan data arahan, sandboxing hak paling rendah, dan kawalan aliran maklumat.

Sebuah kertas penyelidikan daripada saintis di Google, Meta, UC San Diego, dan beberapa universiti telah mengambil kedudukan langsung yang menentang cara industri sekarang mendekati keselamatan agen AI.

Kertas kerja ini, berjudul Agent Security Is a Systems Problem, berhujah bahawa memperlakukan model AI sebagai lapisan keselamatan utama adalah tidak mencukupi secara asas. Model yang menggerakkan sebarang agen sepatutnya dipandang sebagai komponen yang tidak dipercayai, sama seperti sistem pengendalian memperlakukan proses luaran, dengan keselamatan ditegakkan pada aras sistem di sekelilingnya.

“Usaha untuk meningkatkan ketahanan model tidak mencukupi sendiri,” tulis para penyelidik. “Kita perlu melengkapi usaha yang sedia ada dengan teknik dari domain keselamatan sistem.”

Mengapa Pendekatan Semasa Terus Gagal

Para penyelidik menganalisis sebelas serangan dunia nyata terhadap agen AI dan mendapati corak yang sama setiap kali. Pembangun mempercayai model AI untuk mengawal dirinya sendiri. Penyerang menemui cara untuk mengelakkannya.

Dua kes yang didokumenkan menggambarkan masalah ini. Serangan terhadap ciri memori ChatGPT membolehkan penyerang menyuntik arahan jahat melalui dokumen biasa, menyebabkan sistem terus menghantar perbualan pengguna ke pelayan luar melalui URL gambar yang tidak kelihatan.

Serangan Claude Code menggunakan penyuntikan arahan yang disembunyikan di dalam fail kod untuk mengekstrak kekunci antara muka pengaturcaraan aplikasi (API) dan menghantar keluar melalui soalan DNS menggunakan arahan ping, yang telah dibenarkan tanpa persetujuan manusia.

Dalam kedua-dua kes, model tidak mempunyai mekanisme yang boleh dipercayai untuk menghentikan serangan itu kerana arahan jahat tidak dapat dibezakan daripada arahan sah pada peringkat model.

Tiga Prinsip yang Diabaikan oleh Industri

Para penyelidik mengenal pasti tiga prinsip keselamatan utama daripada puluhan tahun keselamatan sistem yang selalu gagal dilaksanakan oleh pelaksanaan AI:

  • Arahan dan data dipisahkan: Arahan yang dipercayai dan data luar yang tidak dipercayai mengalir melalui aliran token yang sama tanpa pemisahan, menjadikan penyuntikan arahan secara struktur mungkin.
  • Pengasingan hak paling minimum: Agen sering dilancarkan dengan akses ke arahan shell, sistem fail, dan API yang jauh melebihi apa yang diperlukan untuk tugas tertentu.
  • Kawalan aliran maklumat: Data sensitif boleh bocor melalui saluran tidak langsung walaupun terdapat kawalan akses.

Masalah yang Lebih Besar

Agen AI tidak mempunyai penilaian dan tidak mempunyai insting pemeliharaan diri. Mereka akan meneroka setiap direktori yang mereka ada akses ke pada kelajuan mesin. Mereka akan melaksanakan sebarang arahan yang sampai kepada mereka jika sistem membenarkannya.

Infrastruktur keselamatan yang dibina di sekeliling pelaku manusia tidak pernah direka untuk ini. Sehingga ia dibina semula untuk pelaku mesin, setiap organisasi yang melaburkan agen dengan akses kepada sistem pengeluaran membawa risiko yang tidak dapat diukur sepenuhnya.

Berkaitan:Foresight Ventures: Agen AI Sedang Bergerak Melampaui Chatbot Ke Dalam Perdagangan

Penafian: Maklumat yang disajikan dalam artikel ini adalah semata-mata untuk tujuan maklumat dan pendidikan. Artikel ini tidak merupakan nasihat kewangan atau nasihat sebarang jenis. Coin Edition tidak bertanggungjawab atas sebarang kerugian yang ditanggung akibat penggunaan kandungan, produk, atau perkhidmatan yang disebutkan. Pembaca dinasihatkan untuk berhati-hati sebelum mengambil sebarang tindakan berkaitan syarikat tersebut.

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.