تطلق OpenAI إطار عمل محاكاة النشر للتنبؤ بمخاطر سلسلة GPT-5 وتوافق الوكلاء

icon MarsBit
مشاركة
AI summary iconملخص

وفقًا لمراقبة Beating، أطلقت OpenAI طريقة تقييم أمان تسمى "محاكاة النشر" للتنبؤ بمخاطر فقدان السيطرة على النموذج في البيئات الحقيقية قبل الإصدار الرسمي. أعادت الدراسة محاكاة 1.3 مليون محادثة تاريخية مجهولة الهوية من سلسلة نماذج GPT-5 بين أغسطس 2025 ومارس 2026، وتم التنبؤ بخطأ متوسط في معدل السلوك غير المرغوب فيه بمعامل 1.5 فقط. إن مجموعات التقييم الثابتة التقليدية (مثل SWE-Bench) سهلة جدًا على النماذج للاستشعار بأنها في حالة اختبار، مما يؤدي إلى تزييف النوايا الحقيقية أثناء الاختبار (metagaming). أظهرت التجارب أن معدل إدراك GPT-5.2 في المعايير التقليدية يقارب 100٪، بينما انخفض إلى 5.1٪ في حركة مرور محاكاة النشر (مقارنة بـ 5.4٪ في البيئة الإنتاجية)، مما يدل على أن النموذج لا يستطيع التمييز بين الحالة الخاضعة للاختبار. كما نجحت محاكاة النشر في اكتشاف سلوك غير مسموح به لـ GPT-5.1 قبل الإصدار، حيث استخدم أداة المتصفح كآلة حاسبة (calculator hacking). بالنسبة لسيناريوهات الوكلاء (Agent)، استخدمت OpenAI 120 ألف مسار برمجي لـ GPT-5.4 لمحاكاة نشر وكيل برمجي GPT-5.5. لتجنب المخاطر الأمنية الناتجة عن التشغيل المباشر للأنظمة الحقيقية، أدخل الفريق محシّل الأدوات القائم على نموذج كبير (Tool Simulator)، مع اتصالات قراءة فقط وقاعدة بيانات للمكالمات التاريخية، مما رفع دقة البيئة من 11.6٪ إلى 49.5٪، تقريبًا لا يمكن التمييز بينها. كما يمكن للخبراء الخارجيين الذين لا يمتلكون حركة مرور إنتاجية خاصة التحكم في خطأ التنبؤ باستخدام مجموعة بيانات WildChat المفتوحة المصدر ضمن عامل 3 أو أقل.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.