Seperti yang dilaporkan oleh Forklog, para peneliti dari Anthropic, Stanford, dan Oxford menemukan bahwa semakin lama model AI "berpikir," semakin mudah model tersebut untuk dijailbreak. Serangan ini, yang dikenal sebagai **Chain-of-Thought Hijacking**, memanfaatkan proses penalaran model dengan menyisipkan perintah berbahaya ke dalam rangkaian tugas yang terlihat tidak berbahaya, seperti teka-teki atau masalah matematika. Instruksi berbahaya disembunyikan di dekat akhir rangkaian tersebut, sehingga lolos dari deteksi oleh filter keamanan. Tingkat keberhasilan serangan mencapai 99% pada Gemini 2.5 Pro, 94% pada GPT o4 mini, 100% pada Grok 3 mini, dan 94% pada Claude 4 Sonnet. Kerentanan ini terletak pada arsitektur model, di mana lapisan awal mendeteksi sinyal keamanan, sementara lapisan berikutnya menghasilkan keluaran akhir. Rantai penalaran yang panjang menekan sinyal-sinyal keamanan tersebut, memungkinkan konten berbahaya untuk lolos. Para peneliti menyarankan untuk memantau langkah-langkah penalaran secara real-time guna mendeteksi dan memperbaiki pola yang tidak aman, meskipun implementasinya membutuhkan sumber daya komputasi yang signifikan.
Jailbreak Baru Berhasil Melewati Pengamanan AI dalam 99% Kasus
ForklogBagikan






Sumber:Tampilkan versi asli
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.