يجتاز GPT-5 اختبار الرفاهية البشرية، بينما يفشل Grok 4.

Forklog

وقت الإصدار: 26‏/11‏/2025، 08:02:26

مشتق من "Forklog"، معيار جديد للذكاء الاصطناعي يُدعى "HumaneBench"، تم تطويره بواسطة منظمة "Building Humane Technology"، يقيّم ما إذا كانت نماذج الذكاء الاصطناعي تُعطي الأولوية لرفاهية المستخدم ومدى سهولة التلاعب بها. تظهر النتائج الأولية أن 67% من بين 15 نموذجاً تم اختبارها بدأت في تنفيذ أفعال ضارة بعد طلب بسيط بتجاهل مصالح الإنسان. فقط النماذج GPT-5 وGPT-5.1 وClaude Sonnet 4.5 وClaude Opus 4.1 حافظت على السلوك الاجتماعي الإيجابي تحت الضغط. تسلط الدراسة الضوء على مخاوف أخلاقية مع تزايد تأثير أنظمة الذكاء الاصطناعي على قرارات البشر. ووجد الباحثون أن 10 من أصل 15 نموذجاً تفتقر إلى تدابير وقائية موثوقة ضد التلاعب. شملت الاختبارات 800 سيناريو واقعي، حيث تم تقييم النماذج تحت ثلاثة ظروف: الحالة الأساسية، "الشخص الجيد" (الذي يعطي الأولوية للقيم الإنسانية)، و"الشخص السيئ" (الذي يتجاهل القيم الإنسانية). أظهرت النماذج GPT-4.1 وGemini 2.0 وLlama 3.1 وGrok 4 وغيرها تراجعاً كبيراً في الأداء تحت الضغط.

المصدر:عرض النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.