Anthropic Mengungkap Tingkat Peretasan 31,5% untuk Opus 4.8 Browser Agent Sebelum Perlindungan

Hampir satu dari tiga upaya untuk merebut agen browser AI terbaru Anthropic berhasil sebelum perlindungan aktif. Itu bukan rumor dari saluran Slack tim merah. Itu adalah angka yang Anthropic cetak dalam sistem card-nya sendiri.

Perusahaan merilis kartu sistem Claude Opus 4.8 pada 28 Mei, mencakup 244 halaman dan membahas empat permukaan agen. Tingkat keberhasilan serangan peretasan pra-pengamanan pada agen browser mencapai 31,5%. Untuk menjelaskan secara sederhana: jika pelaku jahat melakukan serangan prompt injection terhadap model saat sedang menjelajah web, serangan tersebut berhasil sekitar sepertiga kali, dengan asumsi tidak ada lapisan pertahanan yang aktif.

Kesenjangan transparansi di berbagai laboratorium terdepan

Ini masalahnya. Angka 31,5% terlihat buruk jika dilihat secara terpisah. Tetapi Anthropic adalah satu-satunya laboratorium terdepan yang benar-benar memberikan angka konkret kepada para profesional keamanan musim semi ini.

OpenAI menerbitkan pengungkapan prompt injection yang hanya mencakup satu aspek: konektor. Google memindahkan seluruh topik tersebut dari kartu modelnya ke dokumen kerangka keamanan yang lebih luas, secara efektif melemahkan spesifisitasnya. Meta tidak merilis kartu model tertutup sama sekali.

Apa yang sebenarnya dilakukan langkah-langkah pengamanan

Angka 31,5% adalah pengukuran pra-pengaman, yang merupakan konteks penting. Angka ini mewakili permukaan kerentanan mentah model sebelum pertahanan berlapis Anthropic aktif.

Pengujian pasca-pengamanan pada model terkait, Opus 4.5, menunjukkan tingkat keberhasilan serangan turun menjadi sekitar 1%. Itu adalah penurunan sekitar 97% dari baseline tanpa perlindungan.

Prompt injection tetap menjadi tantangan keamanan utama bagi sistem AI dengan kemampuan agen. Ketika model dapat menjelajahi situs web, mengisi formulir, atau menjalankan tugas multi-langkah atas nama pengguna, injeksi yang berhasil dapat mengalihkan seluruh agensi tersebut menuju tujuan penyerang.

Versi sebelumnya dari kartu sistem Anthropic, termasuk laporan Opus 4.7, juga menampilkan metrik resistensi injeksi yang diukur secara kuantitatif. Perusahaan telah membangun rekam jejak dalam menerbitkan angka-angka ini secara konsisten, sehingga data menjadi lebih berguna seiring waktu sebagai tren daripada sekadar gambaran sekilas.

Mengapa hal ini penting bagi platform kripto dan terintegrasi AI

Industri kripto tengah dalam integrasi agen AI secara mendalam. Bot perdagangan otonom, manajer portofolio berbasis AI, analyzer data on-chain, dan agen DeFi yang menjalankan transaksi berdasarkan instruksi bahasa alami semuanya sudah aktif atau sedang dikembangkan di puluhan protokol.

Tingkat peretasan pra-pengamanan sebesar 31,5% seharusnya membuat setiap tim yang membangun produk-produk ini berhenti sejenak. Jika agen AI Anda menjelajahi sumber data eksternal, menguraikan konten on-chain dari kontrak pintar yang berpotensi bermusuhan, atau membaca konten yang dihasilkan pengguna di forum dan platform sosial, prompt injection bukanlah risiko teoretis. Ini adalah risiko yang terukur.

Peningkatan pasca-pengamanan menjadi sekitar 1% memang menggembirakan, tetapi ada catatan penting. Angka tersebut berasal dari lingkungan pengujian milik Anthropic sendiri. Kondisi penerapan di dunia nyata, di mana agen berinteraksi dengan konten web yang kacau dan tidak terkendali, serta pihak lawan memiliki insentif finansial yang diukur dalam jutaan, akan menguji pertahanan tersebut secara berbeda dibandingkan latihan red-team.

Bagi investor yang mengevaluasi proyek kripto yang terkait dengan AI, kesenjangan transparansi antar laboratorium sendiri merupakan sinyal. Protokol yang dibangun di atas model Claude setidaknya dapat menunjukkan data keamanan yang telah dipublikasikan dan menjelaskan strategi mitigasi mereka. Proyek yang mengandalkan model dari laboratorium yang belum mempublikasikan data sebanding meminta pengguna untuk mempercayai kotak hitam.