Anthropic Melaporkan Kadar Perompakan 31.5% untuk Agen Perintah Opus 4.8 Sebelum Langkah Keselamatan

Arahkan seorang red-teamer ke model terbaru Anthropic semasa ia melayari web, dan penyerang berjaya menguasainya hampir satu daripada tiga kali. Itu adalah statistik mentah: kadar kejayaan 31.5% untuk serangan penyuntikan arahan terhadap agen pelayar Claude Opus 4.8 sebelum langkah-langkah keselamatan pertahanan aktif.

Kesenjangan transparansi antara makmal

Anthropic menerbitkan laporan keselamatan sebanyak 244 muka surat pada 28 Mei, yang merangkumi empat permukaan agen yang berbeza: melayari web, menulis kod, mengkoordinasikan dengan agen AI lain, dan berinteraksi dengan alat luar.

OpenAI melaporkan hanya pada satu permukaan: penyambung. Google memindahkan keseluruhan topik tersebut keluar daripada kad modelnya dan ke dalam dokumen kerangka keselamatan yang berasingan. Meta tidak menghantar kad model tertutup sama sekali.

Angka 31.5% adalah sebelum langkah keselamatan, bermakna ia mewakili kerentanan model mentah sebelum lapisan pertahanan Anthropic berfungsi. Setiap pelaksanaan pengeluaran termasuk pengawal, pemantauan, dan penyaringan yang mengurangkan kadar eksploitasi di dunia nyata. Tetapi mengetahui kerentanan asas adalah jenis data tepat yang diperlukan oleh arkitek keselamatan untuk membina pengawal tersebut dengan betul.

Apa yang sebenarnya dilakukan secara berbeza oleh Opus 4.8

Kesalahan negatif palsu pada ralat pengaturcaraan, di mana model gagal menangkap ralatnya sendiri, turun dari 19.7% kepada 3.7%. Opus 4.8 juga memperkenalkan orkestrasi agen pelbagai dinamik pada skala besar, mengkoordinasikan ratusan sub-agen secara serentak untuk mengurus projek perisian besar.

Mengapa kripto perlu memperhatikan

Kadar perampasan 31.5% sebelum perlindungan untuk agen berbasis browser sepatutnya membuat sesiapa yang menjalankan sistem AI dalam kripto berhenti sebentar. Agen berbasis browser adalah jenis alat tepat yang digunakan oleh projek kripto untuk papan pemantauan, pengutipan data atas rantai, berinteraksi dengan antaramuka DEX, dan melaksanakan perdagangan melalui antaramuka web.

Penyuntikan prompt dalam agen peramban bermaksud laman web jahat, respons API yang telah disusupi, atau bahkan nama token yang dirangka dengan bijak boleh mengalihkan tingkah laku agen AI. Dalam perisian tradisional, itu adalah kebocoran data. Dalam kripto, itu adalah dompet yang dikosongkan.

Orkestrasi agen pelbagai menambah lapisan kompleksiti tambahan. Apabila Opus 4.8 mengkoordinasikan ratusan agen sub, satu serangan penyuntikan arahan yang berjaya boleh menimbulkan kesan berantai ke seluruh alur kerja. Dalam konteks kripto, ini adalah perbezaan antara satu transaksi yang disusupi dan kegagalan sistemik merentasi keseluruhan operasi perdagangan automatik.