Arahkan seorang red-teamer ke model terbaru Anthropic saat sedang menjelajah web, dan penyerang berhasil mengambil alihnya hampir satu dari tiga kali. Itu adalah statistik mentah: tingkat keberhasilan prompt injection sebesar 31,5% untuk agen browser Claude Opus 4.8 sebelum perlindungan pertahanan aktif.
Kesenjangan transparansi antar laboratorium
Anthropic merilis laporan keselamatan sepanjang 244 halaman pada 28 Mei, yang mencakup empat permukaan agen yang berbeda: menjelajah web, menulis kode, berkoordinasi dengan agen AI lain, dan berinteraksi dengan alat eksternal.
OpenAI melaporkan hanya pada satu aspek: konektor. Google memindahkan seluruh topik tersebut dari kartu modelnya ke dokumen kerangka keamanan terpisah. Meta sama sekali tidak merilis kartu model tertutup.
Angka 31,5% adalah sebelum perlindungan, artinya mewakili kerentanan model mentah sebelum lapisan pertahanan Anthropic aktif. Setiap penyebaran produksi mencakup pengamanan, pemantauan, dan penyaringan yang mengurangi tingkat eksploitasi di dunia nyata. Tetapi mengetahui kerentanan dasar adalah jenis data yang tepat yang dibutuhkan arsitek keamanan untuk membangun pengamanan tersebut dengan benar.
Apa yang sebenarnya dilakukan secara berbeda oleh Opus 4.8
False negatif pada kesalahan pemrograman, di mana model gagal mendeteksi kesalahan sendiri, turun dari 19,7% menjadi 3,7%. Opus 4.8 juga memperkenalkan orkestrasi multi-agente dinamis dalam skala besar, mengoordinasikan ratusan sub-agente secara bersamaan untuk mengelola proyek perangkat lunak besar.
Mengapa kripto harus memperhatikan
Tingkat peretasan pra-pengamanan sebesar 31,5% untuk agen berbasis browser seharusnya membuat siapa pun yang menjalankan sistem AI di crypto berhenti sejenak. Agen browser adalah jenis alat yang tepat yang digunakan proyek crypto untuk dashboard pemantauan, pengumpulan data on-chain, berinteraksi dengan antarmuka DEX, dan mengeksekusi perdagangan melalui antarmuka web.
Injection prompt pada agen browser berarti situs web jahat, respons API yang telah diretas, atau bahkan nama token yang dirancang dengan cerdas dapat berpotensi mengalihkan perilaku agen AI. Dalam perangkat lunak tradisional, itu adalah pelanggaran data. Dalam crypto, itu adalah dompet yang kosong.
Orkestrasi multi-agmen menambahkan lapisan kompleksitas tambahan. Ketika Opus 4.8 mengoordinasikan ratusan sub-agmen, satu serangan prompt injection yang berhasil berpotensi menyebar ke seluruh alur kerja. Dalam konteks kripto, itu adalah perbedaan antara satu transaksi yang dikompromikan dan kegagalan sistemik di seluruh operasi perdagangan otomatis.
