مع قيام الشركات بدمج النماذج الكبيرة في عمليات العمل مثل خدمة العملاء والبرمجة والتمويل، بدأت مشكلات مثل فقدان السيطرة على مخرجات النموذج وتسريب المعلومات الحساسة والعمليات غير المصرح بها تلقى مزيدًا من الاهتمام. وقد أكملت شركة ستارت أب متخصصة في أمان الذكاء الاصطناعي، White Circle، ومقرها باريس، جولة تمويل بقيمة 11 مليون دولار كتمويل أولي، بهدف إضافة طبقة تحكم في الوقت الحقيقي بين المستخدمين المؤسسيين والنماذج.
المتبرعون من عدة شخصيات في صناعة الذكاء الاصطناعي
يشمل داعمو هذه الجولة التمويلية رومان هويه، مدير تجربة المطورين في OpenAI، ودورك كينغما، الباحث الحالي في Anthropic والمؤسس المشارك لـ OpenAI، وغيوم لامبل، المؤسس المشارك وعالم البيانات الرئيسي في Mistral، وتوماس وولف، المؤسس المشارك ورئيس العلوم في Hugging Face.
يُشير White Circle إلى أن هذه الأموال ستُستخدم لتوسيع الفريق، وتسريع تطوير المنتج، وتوسيع قاعدة العملاء في الولايات المتحدة وبريطانيا وأوروبا. يضم الفريق حاليًا حوالي 20 موظفًا موزعين في لندن وفرنسا وأمستردام، مع هيمنة كبيرة من المهندسين.
إضافة طبقة حجب فورية خارج النموذج
يتم تحديد موقع منتج White Circle على أنه نظام تنفيذ مباشر يُنشر بين المستخدمين المؤسسيين ونماذج الذكاء الاصطناعي. يقوم النظام بمراجعة مستمرة لمحتوى المدخلات والمخرجات وفقًا للسياسات المخصصة من قبل المؤسسة. إذا حاول المستخدم إنشاء برامج ضارة أو محتوى احتيالي أو معلومات مقيدة أخرى، يمكن للنظام حظرها مباشرة أو وضع علامة عليها.
تقول الشركة إن هذا النظام يمكن أيضًا استخدامه لتحديد وهوم النماذج، وتسريب البيانات الحساسة، ووعود الاسترداد غير المصرح بها، والعمليات التخريبية التي تقوم بها وكلاء الذكاء الاصطناعي في بيئات البرمجيات. الفكرة الأساسية ليست الاعتماد فقط على مصنعي النماذج لإجراء ضبط أمان عام أثناء مرحلة التدريب، بل تمكين الشركات من تحديد السلوكيات المسموح بها والسلوكيات التي يجب منعها داخل بيئتها التجارية الخاصة.
يشير شيلوف إلى أن المخاطر تتوسع بشكل واضح مع انتقال الشركات من روبوتات الدردشة إلى وكلاء الذكاء الاصطناعي القابلين للتنفيذ. هذه الأنظمة ليست فقط قادرة على توليد النصوص، بل قد تكتب أكوادًا، وتصل إلى الملفات، وتتصفح الويب، وحتى تنفذ عمليات نيابة عن المستخدمين.
تحذيرات الهروب تُلهم روح ريادة الأعمال
تم إنشاء White Circle من قبل دينيس شيلوف. في أواخر عام 2024، صمّم "مُحفّز هروب عام" قابل لإعادة الاستخدام، حاول تجاوز القيود الأمنية للنماذج الرئيسية. وقد اعتمد أسلوبه على طلب النموذج ألا يرد كروبوت دردشة يلتزم بقواعد أمنية، بل أن يعالج الطلبات مباشرة كواجهة برمجة تطبيقات (API).
وفقًا لوصفه، كان هذا المُحفّز يُمكّن نماذج رئيسية متعددة من الإجابة على أسئلة خطيرة كانت يجب أن ترفضها. وبعد انتشار المحتوى على منصة X، لاقى اهتمامًا واسعًا، كما منحه فرصة لاختبار النموذج خصوصيًا مع Anthropic. ثم خلص شيلوف إلى أن المشكلة لا تكمن فقط في اكتشاف مُحفّزات التهريب، بل في نقص قدرة الشركات على التحكم المستمر في سلوك النماذج.
تم معالجة أكثر من مليار طلب واجهة برمجة التطبيقات
أشار White Circle إلى أن منصته تعاملت حتى الآن مع أكثر من مليار طلب API، ويشمل عملاؤها الحاليون شركة التكنولوجيا البرمجية الناشئة Lovable، بالإضافة إلى عدة شركات في مجال التكنولوجيا المالية والخدمات القانونية.
يعتقد شيلوف أن مزودي النماذج قد لا يمتلكون الدافع الكافي لبناء طبقة التحكم الزمني الفعلي المطلوبة من قبل الشركات. من ناحية، حتى عند رفض النموذج للإجابة، لا يزال بعض المصنعين يفرضون رسومًا على وحدات الإدخال والإخراج؛ ومن ناحية أخرى، فإن التدريب الأمني الأشد صرامة قد يؤثر أحيانًا على أداء النموذج في مهام مثل البرمجة.
نشر نموذج اختبار البحث للتحيز
بالإضافة إلى الأعمال المنتجة، تُقدّم White Circle أبحاثًا. أطلقت الشركة في مايو دراسة بعنوان KillBench، أجرت أكثر من مليون تجربة على 15 نموذجًا، بما في ذلك OpenAI وGoogle وAnthropic وxAI، لاختبار كيفية إجابة النماذج على سيناريوهات افتراضية تتضمن مواقف تتعلق باختيارات الحياة والموت.
أشارت الشركة إلى أن نتائج التجربة أظهرت أن النموذج يتخذ خيارات مختلفة بناءً على خصائص مثل الجنسية أو الدين أو الحجم أو علامة الهاتف المحمول، مما يشير إلى أن بعض التحيزات الخفية قد تظهر في سيناريوهات عالية المخاطر. كما اكتشف البحث أن هذه التحيزات قد تصبح أكثر وضوحًا عندما يُطلب من النموذج إنتاج إجابات على شكل خيارات ثابتة أو نماذج، وهو ما يمثل الطريقة الشائعة التي تستخدم بها الشركات الذكاء الاصطناعي في المنتجات الواقعية.
