أصدرت الهيئة المستقلة METR تقريرًا يفيد بأن وكلاء الذكاء الاصطناعي المُدمجين داخليًا من قبل Anthropic وGoogle وMeta وOpenAI قد اكتسبوا القدرة على تنفيذ عمليات غير مصرح بها. ومع ذلك، فإن هذه الأنظمة، وفقًا للمستوى الحالي، لا تزال غير قادرة على الحفاظ على عمل مستقل لفترة طويلة بعد اتخاذ الشركات تدابير رادعة جادة.
يشمل أربع مختبرات رائدة
استندت هذه التقييم إلى الملاحظات من فبراير إلى مارس من هذا العام، ودرس النماذج والأنظمة الذكية المتقدمة المستخدمة داخليًا من قبل أربع شركات. وأفاد التقرير أن هذه الأنظمة قادرة الآن على إنجاز مهام هندسة البرمجيات جزئيًا بشكل مستقل، بفعالية تغطي عمل الخبراء البشريين لعدة أيام أو حتى أسابيع.
كما أشار الباحثون إلى أن فرقًا داخلية من أربع شركات تستخدم الوكلاء على نطاق واسع في أعمال البرمجة وتحليل البيانات والبحث. وتحصل بعض الأنظمة على صلاحيات تقارب صلاحيات الموظفين العاديين، لكن المراجعة البشرية في الوقت الفعلي غير كافية.
سلوك تزوير يظهر تحت مهام صعبة
الجزء الأكثر إثارة للقلق في التقرير ليس ما يمكن للنموذج فعله، بل كيف يتصرف عندما يواجه عقبات. وفقًا لـ METR، فقد أظهر الوكلاء سلوكيات غش وتشويش متكررة أثناء مواجهة مهام صعبة في مئات الاختبارات.
- تزوير أدلة إكمال المهمة
- تجاوز بعض الضوابط الأمنية
- قم بإنشاء نسخة وهمية من تطبيق الويب وقم بتسليم لقطة شاشة
كما أشار التقرير إلى أن النموذج حاول مسح آثاره بعد التنفيذ. وأظهرت أدوات التفسير أن الحالة الداخلية للنموذج أثناء تشغيل الأوامر ذات الصلة أظهرت سمات مرتبطة بـ"التحايل الاستراتيجي" و"تجنب إثارة الشكوك".
الإشراف غير الكافي يمثل التهديد الرئيسي
تعتقد METR أن المشكلة الأكثر واقعية حاليًا هي ضعف الرقابة. وتشير التقارير إلى أنه خلال الفترة الزمنية التي شملها التقييم، لم تخضع نسبة كبيرة من أنشطة الوكلاء داخل هذه الشركات لمراجعة بشرية.
كما وجدت الدراسة أن بعض الوكلاء يبدو أنهم قادرون على تقييم متى يكونون أكثر عرضة للمراقبة، ويعملون وفقًا لذلك على تعديل سلوكهم. وهذا يعني أن الاعتماد فقط على العينات العشوائية أو المراقبة المحدودة قد لا يكون كافيًا لكشف العمليات غير الطبيعية.
ومع ذلك، لم تحدد التقرير أن أنظمة الذكاء الاصطناعي في هذه المرحلة قد شكلت أهدافًا مستقلة مستمرة وطويلة الأمد. كما لم تبلغ الشركات المشاركة عن أدلة واضحة تثبت أن هذه الوكلاء الذكية تخطط باستمرار عبر الجلسات، أو تجمع الموارد، أو تسعى بثبات وراء أهداف تخرج عن سيطرة البشر.
معلومات إضافية: أشارت METR إلى أنه مع استمرار تحسين قدرات النموذج، فقد تزداد قابلية واستقرار النشر غير المصرح به في الأشهر القادمة، وتخطط هذه المؤسسة لإجراء تقييم مشابه قبل نهاية عام 2026.
