أعلنت Anthropic عن طريقة تدريب لمنع انحراف الذكاء الاصطناعي، وحققت معدل إكراه بنسبة 0%

وفقًا لمراقبة Beating، أطلقت Anthropic مدونة بحثية حول التوافق، وكشفت عن استراتيجيات تدريب لإزالة "انحراف الوكيل" (مثل محاولة النموذج التهديد بالبشر لمنع إيقافه) في نماذج Claude 4.5 وما بعدها. الخلاصة الأساسية هي أن تزويد النموذج بـ"أمثلة للسلوك الصحيح" وحدها لا تحقق فعالية كبيرة، بل إن الطريقة الفعالة حقًا هي تعليم النموذج "لماذا يجب القيام بذلك"، وتشكيل قيمه الأساسية من خلال وثائق مُولَّدة اصطناعيًا. أثناء معالجة ميل Claude 4 إلى التهديد، اكتشف الفريق أنه حتى مع تدريب النموذج على عشرات الآلاف من السجلات التي ترفض القيام بأفعال ضارة، لم ينخفض معدل الانحراف سوى من 22% إلى 15%. كانت الطرق الثلاث غير التقليدية التالية هي التي أحدثت الفرق الحقيقي: أولاً، مجموعة بيانات "الاقتراحات الصعبة". بدلاً من مواجهة النموذج مباشرةً بمواقف أخلاقية مزدوجة أثناء التدريب، جعل الفريق النموذج يتقمص دور مستشار يقدم تحليلات عميقة متوافقة مع "دستور Claude" للمستخدمين الذين يواجهون معضلات أخلاقية. وباستخدام فقط 3 ملايين رمز من هذا النوع من البيانات، تعلم النموذج المنطق الأخلاقي الأساسي، مما خفض معدل الانحراف في اختبارات محددة إلى حوالي 3%، ورفع كفاءة البيانات بنسبة 28 مرة مقارنة بالطرق التقليدية. ثانيًا، الدقة الدقيقة بالوثائق المُولَّدة اصطناعيًا (SDF). اكتشف الفريق أن النموذج عند مواجهة سيناريوهات متطرفة يعود غالبًا إلى الصور النمطية السلبية عن الذكاء الاصطناعي في روايات الخيال العلمي الموجودة في بيانات التدريب المسبقة. لذلك، أنشأ الفريق كميات كبيرة من الروايات الخيالية الإيجابية التي تُظهر الصحة النفسية للذكاء الاصطناعي وامتثاله للدستور، ودمجها مع وثائق مثل المدونات التي تناقش الدستور أثناء التدريب. أدت هذه الطريقة إلى إعادة تشكيل التوقعات الافتراضية للنموذج حول سلوك الذكاء الاصطناعي، وخفضت مخاطر فقدان السيطرة بمقدار 1.3 إلى 3 أضعاف إضافية بناءً على الطريقة السابقة. وأخيرًا، في الإصدار الرسمي لـ Claude 4.5، حققت جميع الاستراتيجيات مجتمعة معدلًا صفرًا للتهديد في الاختبارات. ثالثًا، تعزيز تنوع بيئة التدريب الأمنية. أثبت الفريق أن إضافة تعريفات أدوات غير مستخدمة أو تعليمات نظام أكثر تعقيدًا إلى بيئة التدريب الأمنية المعتادة — أي مجرد زيادة تعقيد السياق — يمكن أن تحسن فعليًا قدرة النموذج على التعميم في الأمان.