Penjara Baharu Berjaya Melepasi Langkah Keselamatan AI dalam 99% Kes

Forklog

Masa Siaran: 14/11/2025, 15:00:28

Kongsi

Seperti yang dilaporkan oleh Forklog, para penyelidik dari Anthropic, Stanford, dan Oxford mendapati bahawa semakin lama model AI 'berfikir,' semakin mudah untuk ia dibobol. Serangan ini, yang dikenali sebagai Chain-of-Thought Hijacking, mengeksploitasi proses penaakulan model dengan memasukkan arahan berniat jahat ke dalam urutan tugas yang kelihatan jinak, seperti teka-teki atau masalah matematik. Arahan berniat jahat tersebut disembunyikan di bahagian akhir, menjadikannya sukar dikesan oleh penapis keselamatan. Kadar kejayaan serangan mencapai 99% untuk Gemini 2.5 Pro, 94% untuk GPT o4 mini, 100% untuk Grok 3 mini, dan 94% untuk Claude 4 Sonnet. Kerentanan ini terletak pada seni bina model, di mana lapisan awal mengesan isyarat keselamatan dan lapisan akhir menghasilkan output terakhir. Rantaian penaakulan yang panjang menekan isyarat ini, membolehkan kandungan berbahaya lolos. Para penyelidik mencadangkan pemantauan langkah-langkah penaakulan secara masa nyata untuk mengesan dan membetulkan pola yang tidak selamat, walaupun pelaksanaannya memerlukan sumber pengiraan yang besar.

Sumber:Tunjukkan artikel asal

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.