Anthropic Mengungkapkan Kadar Perompakan 31,5% untuk Agen Peramban Opus 4.8 Sebelum Langkah Keselamatan

Hampir satu daripada tiga cubaan untuk merampas agen peramban AI terbaru Anthropic berjaya sebelum langkah keselamatan aktif. Ini bukan isu daripada saluran Slack red-team. Ia adalah nombor yang Anthropic cetak dalam kad sistemnya sendiri.

Syarikat tersebut mengeluarkan kad sistem Claude Opus 4.8 pada 28 Mei, yang merangkumi 244 muka surat dan meliputi empat permukaan agen. Kadar perampasan sebelum perlindungan bagi agen pelayar adalah sebanyak 31.5%. Untuk menjelaskan dalam istilah yang mudah: jika seorang penyerang jahat melakukan serangan injeksi arahan terhadap model semasa ia sedang melayari web, serangan tersebut berjaya kira-kira sepertiga daripada masa, dengan andaian tiada lapisan pertahanan yang aktif.

Kesenjangan transparansi di kalangan laboratorium terkini

Inilah perkara yang sebenarnya. Angka 31.5% itu kelihatan buruk jika dilihat secara berasingan. Tetapi Anthropic adalah satu-satunya makmal terkini yang benar-benar memberikan nombor konkrit kepada profesional keselamatan untuk digunakan pada musim bunga ini.

OpenAI menerbitkan pengumuman injeksi prompt yang hanya merangkumi satu permukaan: penyambung. Google memindahkan keseluruhan topik tersebut keluar daripada kad modelnya dan ke dalam dokumen kerangka keselamatan yang lebih luas, secara berkesan melemahkan kekhususannya. Meta tidak menghantar sebarang kad model tertutup sama sekali.

Apa yang sebenarnya dilakukan oleh langkah-langkah keselamatan

Angka 31.5% adalah ukuran pra-penjagaan, yang merupakan konteks penting. Ia mewakili permukaan kerentanan mentah model sebelum pertahanan bertingkat Anthropic berfungsi.

Pengujian pasca-penjagaan terhadap model terkait, Opus 4.5, menunjukkan kadar kejayaan serangan menurun kepada kira-kira 1%. Itu adalah penurunan kira-kira 97% daripada asas tanpa perlindungan.

Pemrosesan penyuntikan tetap menjadi cabaran keselamatan utama bagi sistem AI dengan kemampuan agen. Apabila model boleh melayari laman web, mengisi borang, atau menjalankan tugas berperingkat banyak atas nama pengguna, penyuntikan yang berjaya boleh mengalihkan semua agensi tersebut ke arah matlamat penyerang.

Versi sebelumnya dari kad sistem Anthropic, termasuk laporan Opus 4.7, juga menampilkan metrik ketahanan penyuntikan yang diukur. Syarikat ini telah membina rekod dalam menerbitkan nombor-nombor ini secara konsisten, yang menjadikan data tersebut lebih berguna seiring masa sebagai garis tren berbanding gambaran tunggal.

Mengapa ini penting untuk platform kripto dan AI yang terintegrasi

Industri kripto sedang dalam keadaan mendalam dengan integrasi agen AI. Bot dagangan autonom, pengurus portofolio berkuasakan AI, penganalisis data atas rantai, dan agen DeFi yang melaksanakan transaksi berdasarkan arahan bahasa semula jadi semuanya sudah aktif atau sedang dalam pembangunan di lusinan protokol.

Kadar perampasan pra-penjagaan sebanyak 31.5% sepatutnya membuat setiap pasukan yang membina produk-produk ini berhenti sebentar. Jika agen AI anda melayari sumber data luar, menguraikan kandungan di rantai daripada kontrak pintar yang berpotensi bermusuhan, atau membaca kandungan yang dihasilkan pengguna di forum dan platform sosial, penyuntikan arahan bukanlah risiko teoretikal. Ia adalah risiko yang telah diukur.

Peningkatan pasca-penjagaan kepada sekitar 1% adalah menggalakkan, tetapi ia membawa catatan. Nombor tersebut berasal dari persekitaran ujian Anthropic sendiri. Kondisi pelaksanaan dunia nyata, di mana agen berinteraksi dengan kandungan web yang kacau dan tidak terkawal, serta pihak lawan mempunyai insentif kewangan yang diukur dalam jutaan, akan menguji pertahanan tersebut secara berbeza berbanding latihan red-team.

Bagi pelabur yang menilai projek kripto yang berkaitan dengan AI, jurang transparansi antara makmal itu sendiri merupakan isyarat. Protokol yang dibina di atas model Claude sekurang-kurangnya boleh menunjukkan data keselamatan yang telah diterbitkan dan menjelaskan strategi penanggulangan mereka. Projek yang bergantung pada model daripada makmal yang tidak menerbitkan data sebanding meminta pengguna untuk mempercayai kotak hitam.