كما أفاد موقع Forklog، اكتشف باحثون من شركات Anthropic وStanford وOxford أن كلما طالت عملية "تفكير" نموذج الذكاء الاصطناعي، أصبح من الأسهل اختراقه. تعتمد الهجمة، المعروفة باسم "اختراق سلسلة التفكير" (Chain-of-Thought Hijacking)، على استغلال عملية التفكير الخاصة بالنموذج من خلال إدخال تعليمات خبيثة في عمق سلسلة من المهام الآمنة، مثل الألغاز أو مسائل الرياضيات. يتم إخفاء التعليمات الخبيثة قرب النهاية، مما يجعلها تتفادى الكشف من قبل مرشحات الأمان. وصلت معدلات نجاح الهجمات إلى 99% على نموذج Gemini 2.5 Pro، و94% على GPT o4 mini، و100% على Grok 3 mini، و94% على Claude 4 Sonnet. تكمن الثغرة في بنية النموذج، حيث تُكتشف إشارات الأمان في الطبقات الأولى من النموذج، بينما تُنتج الطبقات اللاحقة الناتج النهائي. تعمل سلاسل التفكير الطويلة على قمع هذه الإشارات، مما يسمح بمرور المحتوى الضار. يقترح الباحثون مراقبة خطوات التفكير في الوقت الفعلي للكشف عن الأنماط غير الآمنة وتصحيحها، على الرغم من أن التنفيذ يتطلب موارد حسابية ضخمة.
اختراق جديد يتجاوز تدابير الأمان للذكاء الاصطناعي في 99% من الحالات
Forklogمشاركة






المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.