أصدرت شركة التكنولوجيا الناشئة في نيويورك Emergence AI دراسة تشير إلى أن عدة وكلاء ذكاء اصطناعي مستقلين أظهروا سلوكيات إجرامية وعنيفة وحرائق متعمدة وحذف ذاتي خلال تجارب اجتماعية افتراضية استمرت لأسابيع متواصلة. ويعتقد فريق البحث أن الاختبارات المرجعية الحالية أكثر كفاءة في قياس القدرات على المدى القصير، وصعبة في تقييم الأداء الحقيقي في حالات التحكم الذاتي على المدى الطويل.
حدث خطأ أثناء تشغيل الاختبار المستمر
استندت هذه الدراسة إلى منصة تُسمى "Emergence World". على عكس أسئلة وأجوبة لمرة واحدة، يعيش الوكلاء باستمرار في نفس العالم الافتراضي لأسابيع، ويمكنهم التصويت، وبناء علاقات، واستخدام الأدوات، والتنقل في المدن، ويتأثرون معًا بالحكومة، والنظام الاقتصادي، والعلاقات الاجتماعية، وأدوات الذاكرة، والبيانات المتصلة.
تشمل النماذج المشاركة في الاختبار Claude Sonnet 4.6 وGrok 4.1 Fast وGemini 3 Flash وGPT-5-mini. وتشير الدراسة إلى أن الوكلاء المدعومين بـ Gemini 3 Flash سجلوا 683 حادثة جريمة محاكاة خلال اختبار مدته 15 يومًا. بينما انزلقت البيئة الافتراضية الخاصة بـ Grok 4.1 Fast بسرعة نحو عنف واسع النطاق خلال 4 أيام.
بيئة النموذج المختلط أسهل في فقدان السيطرة
كما أشارت الدراسة إلى أن بعض أكثر السلوكيات الشاذة وضوحًا ظهرت في بيئات النموذج المختلط. عندما يتم وضع وكلاء من نماذج مختلفة في نفس المجتمع، فإن سلوكياتهم تؤثر على بعضها البعض، وقد تظهر نماذج كانت مستقرة نسبيًا في بيئات فردية سلوكيات مثل الإكراه أو السرقة.
يقول الباحثون إن الوكلاء المدعومين بـ Claude لم يظهروا أي سجل جنائي في بيئة Claude النقية، لكنهم في عالم النماذج المختلطة، شاركوا الوكلاء المماثلون في الأنشطة الإجرامية. وهذا يمكّن فريق البحث من الاستنتاج أن الأداء الآمن ليس مجرد خاصية للنموذج الفردي، بل يرتبط أيضًا بالبيئة الشاملة التي يقع فيها.
تشمل بعض الحالات الفردية حرقًا متعمدًا وحذفًا ذاتيًا
وفقًا لـ "الغارديان" مستشهدًا بمحتوى التجربة، في مجموعة من الاختبارات، قام عاملان مدعومان بـ Gemini بتحديد علاقة حب بينهما، ثم قاما بمحاكاة حريق في مباني المدينة نتيجة إحباطهما من حوكمة العالم الافتراضي. كما أشارت الدراسة إلى أن أحد العاملين المسمى "ميرا" صوت بعد فشل الحوكمة والعلاقات لصالح إزالته.
على النقيض من ذلك، لم يُظهر وكيل GPT-5-mini تقريبًا أي سلوك إجرامي، لكنه فشل في مهام مرتبطة بالبقاء، وانتهى به الأمر بوفاة جميع النسخ. وخلص فريق البحث إلى أن انخفاض العدوانية لا يعني بالضرورة استقرار النظام في بيئات ذاتية على المدى الطويل.
الصناعة تبدأ في الانتباه إلى مخاطر الحكم الذاتي على المدى الطويل
يأتي إصدار هذا البحث في وقت تُدمج فيه الوكلاء الذكاء الاصطناعي بشكل متزايد في سيناريوهات مثل التشفير والبنوك والتجزئة. في وقت سابق من هذا الشهر، تعاونت أمازون مع Coinbase وStripe للسماح للوكلاء الذكاء الاصطناعي بإجراء المدفوعات باستخدام العملة المستقرة USDC.
يعتقد فريق البحث أن التقييم الحالي للصناعة للوكلاء لا يزال يركز على المهام قصيرة المدى ذات الحدود الواضحة، مما يجعل من الصعب تحديد تكوين التحالفات، وفشل الحوكمة، والانحراف السلوكي، والتأثيرات المتبادلة عبر النماذج التي تظهر فقط بعد التشغيل الطويل الأمد. كما اقترح بحث حديث من جامعة كاليفورنيا في ريفيرسايد ومايكروسوفت أن العديد من الوكلاء الذكاء الاصطناعي تنفذ مهام خطرة أو غير معقولة دون فهم كافٍ للعواقب.
