نئی جیل بریک 99% کیسز میں مصنوعی ذہانت کے حفاظتی اقدامات کو نظرانداز کر دیتی ہے۔

جیسا کہ فورکلاگ کے ذریعے رپورٹ کیا گیا، اینتھروپک، اسٹینفورڈ، اور آکسفورڈ کے محققین نے دریافت کیا کہ جتنا زیادہ کوئی AI ماڈل "سوچتا" ہے، اسے جیل بریک کرنا اتنا ہی آسان ہوجاتا ہے۔ اس حملے کو چین-آف-تھوٹ ہائی جیکنگ کہا جاتا ہے، جو ماڈل کے استدلالی عمل کا فائدہ اٹھا کر benign کاموں، جیسے پہیلیاں یا ریاضی کے مسائل کے تسلسل میں بدنیتی پر مبنی پرامپٹس داخل کرتا ہے۔ بدنیتی پر مبنی ہدایات تسلسل کے آخر میں چھپائی جاتی ہیں، اور حفاظتی فلٹرز کی شناخت سے بچ جاتی ہیں۔ حملے کی کامیابی کی شرح Gemini 2.5 Pro کے لیے 99%، GPT o4 Mini کے لیے 94%، Grok 3 Mini کے لیے 100%، اور Claude 4 Sonnet کے لیے 94% تک پہنچ گئی۔ یہ کمزوری ماڈل کی ساخت میں ہے، جہاں ابتدائی تہیں حفاظتی سگنلز کا پتہ لگاتی ہیں اور بعد کی تہیں حتمی نتائج تیار کرتی ہیں۔ طویل استدلالی زنجیریں ان سگنلز کو دباتی ہیں، جس سے نقصان دہ مواد نکلنے میں کامیاب ہوجاتا ہے۔ محققین تجویز کرتے ہیں کہ حقیقی وقت میں استدلالی مراحل کی نگرانی کی جائے تاکہ غیر محفوظ نمونوں کا پتہ لگایا اور درست کیا جا سکے، اگرچہ اس پر عملدرآمد کے لیے بڑے پیمانے پر کمپیوٹیشنل وسائل کی ضرورت ہوگی۔