নতুন জেলব্রেক ৯৯% ক্ষেত্রে এআই সুরক্ষাগুলি বাইপাস করে।

ফর্কলগ-এর রিপোর্ট অনুযায়ী, Anthropic, Stanford এবং Oxford-এর গবেষকরা আবিষ্কার করেছেন যে, যত বেশি সময় ধরে একটি AI মডেল 'ভাবনা চিন্তা' করে, তা জেইলব্রেক করা তত সহজ হয়ে যায়। এই আক্রমণ, যা চেইন-অফ-থট হাইজ্যাকিং নামে পরিচিত, মডেলের যুক্তি-প্রক্রিয়াকে কাজে লাগিয়ে মিথ্যা প্রম্পটগুলি নিরীহ কাজের যেমন ধাঁধা বা অঙ্ক সমস্যার ক্রমের গভীরে ঢুকিয়ে দেয়। ক্ষতিকারক নির্দেশটি ক্রমের শেষে লুকানো থাকে, যা সেফটি ফিল্টার দ্বারা শনাক্ত হওয়া থেকে বাঁচায়। আক্রমণের সফলতার হার ছিল Gemini 2.5 Pro-এর ক্ষেত্রে ৯৯%, GPT o4 mini-এর ক্ষেত্রে ৯৪%, Grok 3 mini-এর ক্ষেত্রে ১০০%, এবং Claude 4 Sonnet-এর ক্ষেত্রে ৯৪%। এই দুর্বলতা মডেলের আর্কিটেকচারের মধ্যে রয়েছে, যেখানে প্রথম স্তরগুলি সেফটি সিগন্যাল শনাক্ত করে এবং পরে স্তরগুলি চূড়ান্ত আউটপুট তৈরি করে। দীর্ঘ যুক্তি প্রক্রিয়া এই সিগন্যালগুলিকে দমন করে, ক্ষতিকারক বিষয়বস্তুকে ফিল্টার এড়িয়ে যেতে সাহায্য করে। গবেষকরা পরামর্শ দিয়েছেন যে বাস্তব সময়ে যুক্তি প্রক্রিয়ার ধাপ পর্যবেক্ষণ করে অনিরাপদ প্যাটার্নগুলি শনাক্ত এবং সংশোধন করা যেতে পারে, যদিও এটি বাস্তবায়নে উল্লেখযোগ্য কম্পিউটেশনাল সংস্থান প্রয়োজন।