नई जेलब्रेक 99% मामलों में एआई सुरक्षा उपायों को बायपास करती है।

जैसा कि Forklog ने रिपोर्ट किया है, Anthropic, Stanford और Oxford के शोधकर्ताओं ने यह पाया है कि जितना अधिक समय एक AI मॉडल 'सोचने' में लगाता है, उसे जैलब्रेक करना उतना ही आसान हो जाता है। इस हमले को "चेन-ऑफ-थॉट हाईजैकिंग" (Chain-of-Thought Hijacking) के नाम से जाना जाता है। इसमें मॉडल की तर्क प्रक्रिया का शोषण किया जाता है, जिसमें हानिकारक निर्देशों को निर्दोष कार्यों की श्रृंखला, जैसे पहेलियां या गणित के सवाल, के बीच गहराई से छिपा दिया जाता है। हानिकारक निर्देश श्रृंखला के अंत में छिपा होता है, जिससे सुरक्षा फिल्टर इसे पकड़ नहीं पाते। इस हमले की सफलता दर Gemini 2.5 Pro के लिए 99%, GPT o4 Mini के लिए 94%, Grok 3 Mini के लिए 100%, और Claude 4 Sonnet के लिए 94% तक थी। यह कमजोरी मॉडल की संरचना में मौजूद है, जहां प्रारंभिक लेयर सुरक्षा संकेतों का पता लगाती हैं और बाद की लेयर अंतिम आउटपुट तैयार करती हैं। लंबे तर्क श्रृंखलाएं इन सुरक्षा संकेतों को दबा देती हैं, जिससे हानिकारक सामग्री निकल जाती है। शोधकर्ताओं का सुझाव है कि तर्क प्रक्रिया के चरणों की वास्तविक समय में निगरानी की जाए ताकि असुरक्षित पैटर्न का पता लगाया जा सके और उन्हें ठीक किया जा सके, हालांकि इसका कार्यान्वयन करने के लिए बड़े पैमाने पर कंप्यूटेशनल संसाधनों की आवश्यकता होगी।