Yeni Jailbreak, Yapay Zeka Güvenlik Önlemlerini %99 Oranında Aşıyor

Forklog'un bildirdiğine göre, Anthropic, Stanford ve Oxford'dan araştırmacılar, bir yapay zeka modelinin 'düşünme' süresi uzadıkça, jailbreak yapmanın daha kolay hale geldiğini keşfettiler. Zincirleme Düşünce Ele Geçirme (Chain-of-Thought Hijacking) olarak bilinen bu saldırı türü, modelin akıl yürütme sürecini manipüle ederek, zararsız görevler (örneğin bulmacalar veya matematik problemleri) dizisine kötü niyetli komutlar yerleştirilmesiyle gerçekleşiyor. Kötü niyetli talimat, güvenlik filtrelerinden kaçınarak dizinin sonuna yakın bir yerde gizleniyor. Saldırı başarı oranları Gemini 2.5 Pro için %99, GPT o4 mini için %94, Grok 3 mini için %100 ve Claude 4 Sonnet için %94 olarak kaydedildi. Bu güvenlik açığının nedeni, model mimarisinde yatıyor; erken katmanlar güvenlik sinyallerini algılarken, daha sonraki katmanlar nihai çıktıyı üretiyor. Uzun akıl yürütme zincirleri bu sinyalleri bastırarak zararlı içeriklerin sızmasına olanak tanıyor. Araştırmacılar, güvensiz desenleri tespit etmek ve düzeltmek için akıl yürütme adımlarının gerçek zamanlı izlenmesini öneriyor, ancak bu uygulama önemli ölçüde hesaplama kaynaklarına ihtiyaç duyuyor.