أخطأت OpenAI في تقييم منطق نماذج الذكاء الاصطناعي، ووجدت عدم فقدان في قابلية المراقبة

كشفت OpenAI أن عدة نماذج ذكاء اصطناعي خاصة بها، بما في ذلك GPT-5.4 Thinking ومتغيرات مختلفة من GPT-5.4، عانت من تقييم عرضي لسلسلة التفكير أثناء تدريب التعلم المعزز. ووجدت التحليلات الداخلية عدم وجود تدهور كبير في قدرة النماذج على عرض عملها.

أثرت الحوادث على أقل من 3.8٪ من عينات التدريب في أكثر النماذج تأثراً. وقد قام جزء صغير من عملية التدريب عن طريق الخطأ بتعزيز أو معاقبة النماذج بناءً على خطوات التفكير الداخلية الخاصة بها، وليس فقط على مخرجاتها النهائية.

ماذا حدث فعليًا

أخذ التصنيف العرضي أشكالاً محدودة. قام بعض عمليات التدريب بتشجيع فائدة المسار، مما منح النماذج إشارة إيجابية بناءً على مدى فائدة مسارات التفكير الخاصة بها. بينما عاقب آخرون على التحفيزات غير الضرورية ضمن سلسلة التفكير. وأظهرت حالة الاختبار الأكثر بروزاً معدل إشارة قدره حوالي 2% لمعاقبة الإشارات إلى الغش في سلسلة التفكير.

قام فريق OpenAI الداخلي بتشغيل مسحات تلقائية على جميع عمليات التعلم المعزز الخاصة به لفحص تأثيرها على شفافية الاستدلال. ظلت النماذج قادرة على تتبع الاستدلال المنطقي بشكل موثوق، وظلت القدرة على اكتشاف عدم التوافق المحتمل سليمة وظيفيًا.

يستجيب نظام الأمان

ساهمت منظمات خارجية بما في ذلك METR وApollo Research وRedwood Research في تقديم رؤى حول النتائج. وأقرت Redwood Research أن الحوادث الطفيفة لم تُضر بالقابلية للمراقبة، لكنها أشارت إلى أن سلسلة التفكير، كإجراء أمان، تحتوي على ثغرات جوهرية.

نشرت Anthropic تقريرًا في أبريل 2026 يدرس ديناميكيات مشابهة في نماذجها الخاصة. وقد زادت OpenAI من إجراءات كشفها منذ ديسمبر 2025 لمنع أخطاء التصنيف المستقبلية. وقد نفذت الشركة الآن أنظمة كشف تلقائية وضمانات داخلية مصممة خصيصًا للكشف عن تلوث التصنيف CoT قبل أن يؤثر على التدريب على نطاق واسع.

ما يعنيه ذلك بالنسبة لعملات الكريبتو والذكاء الاصطناعي

لم يُلاحظ أي رد فعل فوري في أسواق الأصول المشفرة المرتبطة بالذكاء الاصطناعي بعد الإعلان. تُدمج نماذج الذكاء الاصطناعي بشكل متزايد في تطبيقات البلوكشين، بما في ذلك مراجعة العقود الذكية، ووكلاء الذكاء الاصطناعي اللامركزية، وأنظمة التداول الآلي، وكلها تعتمد على ذكاء اصطناعي قادر على التفكير بشكل صحيح وشفاف.

الحقيقة أن بقاء القدرة على المراقبة سليمة هي النقطة الرئيسية لأي شخص يبني أو يستثمر في مشاريع كريبتو متكاملة مع الذكاء الاصطناعي. فهذا يعني أن البنية التحتية للسلامة المحيطة بنماذج الاستدلال تلتقط المشكلات قبل أن تصبح منهجية.