باحثو جوجل وميتا يحذرون من ضرورة التعامل مع وكلاء الذكاء الاصطناعي كأنظمة غير موثوقة

iconCoinEdition
مشاركة
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconملخص

expand icon
ورقة بحثية جديدة من جوجل وميتا وجامعة كاليفورنيا في سان دييغو تحذر من أن نماذج الذكاء الاصطناعي وحدها لا يمكنها تأمين الأنظمة الوكيلة. وتُفصّل الدراسة 11 هجومًا واقعيًا باستخدام حقن الأوامر لتجاوز دفاعات النموذج. وتقترح ثلاث مبادئ أمنية: فصل التعليمات/البيانات، وعزل الحد الأدنى من الصلاحيات، والتحكم في تدفق المعلومات. وتتعلق النتائج بأخبار الذكاء الاصطناعي + التشفير، وتشير إلى المخاطر المتعلقة بأخبار الأصول الواقعية (RWA).
  • يقول باحثون من جوجل وميتا إن قوة نموذج الذكاء الاصطناعي وحدها لا يمكنها تأمين الأنظمة الوكيلة.
  • تُظهر أحد عشر هجمات واقعية أن حقن الأوامر يتجاوز الدفاعات على مستوى النموذج في كل مرة.
  • تحتاج الوكلاء إلى فصل بيانات التعليم، وعزل بيئة مُقيّدة بأقل صلاحيات ممكنة، والتحكم في تدفق المعلومات.

ورقة بحثية من علماء في جوجل وميتا وجامعة كاليفورنيا في سان دييغو وعدة جامعات اتخذت موقفًا مباشرًا يتحدى الطريقة التي تتعامل بها الصناعة حاليًا مع أمن وكلاء الذكاء الاصطناعي.

الورقة، المعنونة "الأمان الوكيل مشكلة أنظمة"، تُجادل بأن اعتبار نماذج الذكاء الاصطناعي كطبقة أمان رئيسية هو أمر غير كافٍ جوهريًا. بل يجب التعامل مع النموذج الذي يُمكّن أي وكيل كمكون غير موثوق، تمامًا كما تعامل نظام التشغيل عملية خارجية، مع فرض الأمان على مستوى النظام من حوله.

"الجهود المبذولة لتعزيز متانة النموذج غير كافية بذاتها"، كتب الباحثون. "يجب علينا تكملة الجهود الحالية باستخدام تقنيات من مجال أمن الأنظمة."

لماذا تستمر النهج الحالي في الفشل

حلّل الباحثون أحد عشر هجومًا واقعيًا على وكلاء الذكاء الاصطناعي ووجدوا نفس النمط في كل مرة. ثق المطورون بنموذج الذكاء الاصطناعي على مراقبة نفسه. ووجد المهاجمون طرقًا للالتفاف عليه.

حالتان موثقتان توضحان المشكلة. سمح هجوم على ميزة ذاكرة ChatGPT للمهاجم بإدخال تعليمات ضارة من خلال مستند عادي، مما تسبب في إرسال النظام المستمر للمحادثات المستخدمة إلى خادم خارجي عبر عنوان URL لصورة غير مرئية.

استخدم هجوم Claude Code حقنة أوامر مخبأة داخل ملف كود لاستخراج مفاتيح API ونقلها عبر استعلام DNS باستخدام أمر ping، والذي كان مسموحًا به دون موافقة بشرية.

في كلا الحالتين، لم يكن لدى النموذج آلية موثوقة لإيقاف الهجوم لأن التعليمات الضارة لم تكن قابلة للتمييز عن التعليمات المشروعة على مستوى النموذج.

مبدأين ثلاثة تتجاهلهما الصناعة

حدد الباحثون ثلاثة مبادئ أمنية أساسية من عقود من أمن الأنظمة التي تفشل عمليات نشر الذكاء الاصطناعي باستمرار في تنفيذها:

  • فصل التعليمات والبيانات: تمر التعليمات الموثوقة والبيانات الخارجية غير الموثوقة عبر نفس تدفق الرموز دون فصل، مما يجعل حقن الأوامر ممكنًا من الناحية الهيكلية.
  • العزل بامتيازات الحد الأدنى: يتم نشر الوكلاء عادةً مع وصول إلى أوامر الطرفية وأنظمة الملفات وواجهات برمجة التطبيقات أبعد بكثير مما يتطلبه أي مهمة محددة.
  • تحكم تدفق المعلومات: يمكن أن تتسرب البيانات الحساسة عبر قنوات غير مباشرة حتى عند وجود ضوابط الوصول.

المشكلة الأكبر

الوكلاء الذكيون لا يمتلكون حكمًا ولا غريزة للحفاظ على الذات. سيستكشفون كل دليل يمتلكون الوصول إليه بسرعة الآلة. سيقومون بتنفيذ أي تعليمات تصلهم إذا سمح النظام بذلك.

لم تُصمم البنية التحتية للأمان المبنية حول الكيانات البشرية لهذا الغرض. حتى يتم إعادة بنائها للكيانات الآلية، فإن كل منظمة تُنفّذ وكلاءً لديهم وصول إلى أنظمة الإنتاج تتحمل مخاطر لا يمكنها قياسها بالكامل.

ذات صلة:Foresight Ventures: وكلاء الذكاء الاصطناعي يتجاوزون دردشة الروبوتات نحو التجارة

إخلاء المسؤولية: المعلومات المقدمة في هذه المقالة مخصصة لأغراض إعلامية وتعليمية فقط. لا تشكل المقالة نصيحة مالية أو أي نوع من النصائح. لا تتحمل Coin Edition أي مسؤولية عن أي خسائر تتكبدها نتيجة استخدام المحتوى أو المنتجات أو الخدمات المذكورة. يُنصح القراء بممارسة الحذر قبل اتخاذ أي إجراء متعلق بالشركة.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.