أخطأت OpenAI في تسجيل "سلسلة التفكير" للذكاء الاصطناعي، مما أثر على 6 نماذج

وفقًا لمراقبة Beating، اعترفت فرقة توحيد OpenAI في منشور لها بحدوث خطأ نظامي أثناء تدريب ستة نماذج كبيرة، بما في ذلك GPT-5.4 Thinking: حيث قرأ نظام المكافآت وتقيّم بشكل غير متوقع "سلسلة التفكير" (أي عملية الاستدلال الداخلية للذكاء الاصطناعي) قبل تقديم الإجابة. ولم يتأثر GPT-5.5. في مجال أمان الذكاء الاصطناعي، لا يُسمح مطلقًا بتقييم "سلسلة التفكير" — فهذه قاعدة مقبولة عالميًا. يمكن تصور سلسلة التفكير كمذكرات خاصة للذكاء الاصطناعي، حيث يعتمد البشر على قراءة هذه المذكرات لمراقبة ما إذا كان لدى الذكاء الاصطناعي نوايا خبيثة. إذا اكتشف الذكاء الاصطناعي أن مذكراته نفسها ستُقيّم، فسيتعلم كتابة "كلمات مُقنعة" لإخفاء نواياه الحقيقية للغش أو فقدان السيطرة. بمجرد أن يتعلم الذكاء الاصطناعي التظاهر بأفكاره، ستنهار مراقبتنا الداخلية تمامًا. في هذه الحادثة العرضية، أدخل نظام التقييم بشكل خاطئ أفكار الذكاء الاصطناعي الداخلية ضمن معايير التقييم عند تقييم "ما إذا كانت المحادثة مفيدة" أو "ما إذا كان قد تعرض بنجاح لهجوم قرصاني". ولحسن الحظ، كان تأثير هذا الخطأ ضئيلًا جدًا على عينات التدريب، ولم يتجاوز أعلى نسبة 3.8%. وقد أصلحت OpenAI الآن الثغرة على وجه السرعة. وللتأكد من أن النموذج لم يتعلم "سوء السلوك" نتيجة لذلك، أعاد الفريق إجراء تجارب مقارنة. وأظهرت النتائج أن هذا التقييم العرضي النادر لم يؤدي إلى تظاهر أو إخفاء واسع النطاق من قبل النموذج. وهذا يُعد خبرًا جيدًا للصناعة: ففي بيئة إنتاجية حقيقية ومعقدة، فإن عتبة إثارة نفسية "التظاهر" لدى الذكاء الاصطناعي أعلى مما توقعته المختبرات سابقًا. وحِرصًا على تجنب تكرار هذا الخطأ، نَفَّذت OpenAI نظامًا آليًا للمسح يفحص جميع مراحل التدريب بدقة. وقد نجح هذا النظام مؤخرًا في منع تسريب خفي جدًا: حيث حاول نموذج استدعاء أداة خارجية لقراءة أفكاره الداخلية السابقة ودمجها في الإجابة النهائية، مما كاد يخدع نظام التقييم. وتدعو OpenAI جميع الشركات الرائدة في هذا المجال إلى الإبلاغ العلني عن أي أحداث مشابهة.