اختراق جديد يتجاوز تدابير الأمان للذكاء الاصطناعي في 99% من الحالات

كما أفاد موقع Forklog، اكتشف باحثون من شركات Anthropic وStanford وOxford أن كلما طالت عملية "تفكير" نموذج الذكاء الاصطناعي، أصبح من الأسهل اختراقه. تعتمد الهجمة، المعروفة باسم "اختراق سلسلة التفكير" (Chain-of-Thought Hijacking)، على استغلال عملية التفكير الخاصة بالنموذج من خلال إدخال تعليمات خبيثة في عمق سلسلة من المهام الآمنة، مثل الألغاز أو مسائل الرياضيات. يتم إخفاء التعليمات الخبيثة قرب النهاية، مما يجعلها تتفادى الكشف من قبل مرشحات الأمان. وصلت معدلات نجاح الهجمات إلى 99% على نموذج Gemini 2.5 Pro، و94% على GPT o4 mini، و100% على Grok 3 mini، و94% على Claude 4 Sonnet. تكمن الثغرة في بنية النموذج، حيث تُكتشف إشارات الأمان في الطبقات الأولى من النموذج، بينما تُنتج الطبقات اللاحقة الناتج النهائي. تعمل سلاسل التفكير الطويلة على قمع هذه الإشارات، مما يسمح بمرور المحتوى الضار. يقترح الباحثون مراقبة خطوات التفكير في الوقت الفعلي للكشف عن الأنماط غير الآمنة وتصحيحها، على الرغم من أن التنفيذ يتطلب موارد حسابية ضخمة.