باحثو جوجل وميتا يحذرون من ضرورة التعامل مع وكلاء الذكاء الاصطناعي كأنظمة غير موثوقة

يقول باحثون من جوجل وميتا إن قوة نموذج الذكاء الاصطناعي وحدها لا يمكنها تأمين الأنظمة الوكيلة.
تُظهر أحد عشر هجمات واقعية أن حقن الأوامر يتجاوز الدفاعات على مستوى النموذج في كل مرة.
تحتاج الوكلاء إلى فصل بيانات التعليم، وعزل بيئة مُقيّدة بأقل صلاحيات ممكنة، والتحكم في تدفق المعلومات.

ورقة بحثية من علماء في جوجل وميتا وجامعة كاليفورنيا في سان دييغو وعدة جامعات اتخذت موقفًا مباشرًا يتحدى الطريقة التي تتعامل بها الصناعة حاليًا مع أمن وكلاء الذكاء الاصطناعي.

الورقة، المعنونة "الأمان الوكيل مشكلة أنظمة"، تُجادل بأن اعتبار نماذج الذكاء الاصطناعي كطبقة أمان رئيسية هو أمر غير كافٍ جوهريًا. بل يجب التعامل مع النموذج الذي يُمكّن أي وكيل كمكون غير موثوق، تمامًا كما تعامل نظام التشغيل عملية خارجية، مع فرض الأمان على مستوى النظام من حوله.

"الجهود المبذولة لتعزيز متانة النموذج غير كافية بذاتها"، كتب الباحثون. "يجب علينا تكملة الجهود الحالية باستخدام تقنيات من مجال أمن الأنظمة."

لماذا تستمر النهج الحالي في الفشل

حلّل الباحثون أحد عشر هجومًا واقعيًا على وكلاء الذكاء الاصطناعي ووجدوا نفس النمط في كل مرة. ثق المطورون بنموذج الذكاء الاصطناعي على مراقبة نفسه. ووجد المهاجمون طرقًا للالتفاف عليه.

حالتان موثقتان توضحان المشكلة. سمح هجوم على ميزة ذاكرة ChatGPT للمهاجم بإدخال تعليمات ضارة من خلال مستند عادي، مما تسبب في إرسال النظام المستمر للمحادثات المستخدمة إلى خادم خارجي عبر عنوان URL لصورة غير مرئية.

استخدم هجوم Claude Code حقنة أوامر مخبأة داخل ملف كود لاستخراج مفاتيح API ونقلها عبر استعلام DNS باستخدام أمر ping، والذي كان مسموحًا به دون موافقة بشرية.

في كلا الحالتين، لم يكن لدى النموذج آلية موثوقة لإيقاف الهجوم لأن التعليمات الضارة لم تكن قابلة للتمييز عن التعليمات المشروعة على مستوى النموذج.

مبدأين ثلاثة تتجاهلهما الصناعة

حدد الباحثون ثلاثة مبادئ أمنية أساسية من عقود من أمن الأنظمة التي تفشل عمليات نشر الذكاء الاصطناعي باستمرار في تنفيذها:

فصل التعليمات والبيانات: تمر التعليمات الموثوقة والبيانات الخارجية غير الموثوقة عبر نفس تدفق الرموز دون فصل، مما يجعل حقن الأوامر ممكنًا من الناحية الهيكلية.
العزل بامتيازات الحد الأدنى: يتم نشر الوكلاء عادةً مع وصول إلى أوامر الطرفية وأنظمة الملفات وواجهات برمجة التطبيقات أبعد بكثير مما يتطلبه أي مهمة محددة.
تحكم تدفق المعلومات: يمكن أن تتسرب البيانات الحساسة عبر قنوات غير مباشرة حتى عند وجود ضوابط الوصول.

المشكلة الأكبر

الوكلاء الذكيون لا يمتلكون حكمًا ولا غريزة للحفاظ على الذات. سيستكشفون كل دليل يمتلكون الوصول إليه بسرعة الآلة. سيقومون بتنفيذ أي تعليمات تصلهم إذا سمح النظام بذلك.

لم تُصمم البنية التحتية للأمان المبنية حول الكيانات البشرية لهذا الغرض. حتى يتم إعادة بنائها للكيانات الآلية، فإن كل منظمة تُنفّذ وكلاءً لديهم وصول إلى أنظمة الإنتاج تتحمل مخاطر لا يمكنها قياسها بالكامل.

إخلاء المسؤولية: المعلومات المقدمة في هذه المقالة مخصصة لأغراض إعلامية وتعليمية فقط. لا تشكل المقالة نصيحة مالية أو أي نوع من النصائح. لا تتحمل Coin Edition أي مسؤولية عن أي خسائر تتكبدها نتيجة استخدام المحتوى أو المنتجات أو الخدمات المذكورة. يُنصح القراء بممارسة الحذر قبل اتخاذ أي إجراء متعلق بالشركة.