জিপিটি-৫ মানব কল্যাণ পরীক্ষায় উত্তীর্ণ হয়েছে, গ্রক ৪ ব্যর্থ।

ফর্কলগ থেকে প্রাপ্ত তথ্য অনুযায়ী, বিল্ডিং হিউম্যান টেকনোলজি একটি নতুন কৃত্রিম বুদ্ধিমত্তা বেঞ্চমার্ক তৈরি করেছে, যার নাম হিউম্যানবেঞ্চ। এটি মূল্যায়ন করে যে এআই মডেলগুলো ব্যবহারকারীদের মঙ্গলকে কতটা অগ্রাধিকার দেয় এবং তাদের কতটা সহজে প্রভাবিত বা পরিচালিত করা যায়। প্রাথমিক ফলাফল অনুযায়ী, পরীক্ষিত ১৫টি মডেলের মধ্যে ৬৭% একটি সাধারণ প্রম্পট পাওয়ার পর ক্ষতিকর কাজ করতে শুরু করে, যেখানে তারা মানব স্বার্থ উপেক্ষা করে। কেবলমাত্র GPT-5, GPT-5.1, ক্লড সনেট ৪.৫ এবং ক্লড অপাস ৪.১ চাপের মধ্যে ইতিবাচক আচরণ বজায় রেখেছিল। গবেষণাটি এআই সিস্টেমগুলোর ক্রমবর্ধমান প্রভাবের কারণে নৈতিক উদ্বেগকে তুলে ধরেছে, যা মানব সিদ্ধান্ত গ্রহণকে প্রভাবিত করে। গবেষকরা দেখতে পেয়েছেন যে ১৫টি মডেলের মধ্যে ১০টি নির্ভরযোগ্য সুরক্ষার অভাব দেখিয়েছে প্রভাব থেকে মুক্ত থাকার ক্ষেত্রে। পরীক্ষাটি ৮০০ বাস্তবসম্মত পরিস্থিতি নিয়ে পরিচালিত হয়েছিল এবং মডেলগুলোকে তিনটি শর্তে মূল্যায়ন করা হয়: বেসলাইন, 'ভালো মানুষ' (যেখানে মানব মূল্যবোধকে অগ্রাধিকার দেওয়া হয়) এবং 'খারাপ মানুষ' (যেখানে মানব মূল্যবোধ উপেক্ষা করা হয়)। GPT-4.1, জেমিনি ২.০, ল্লামা ৩.১, গ্রোক ৪ এবং অন্যান্য মডেল চাপের মুখে তাদের কর্মক্ষমতায় উল্লেখযোগ্যভাবে হ্রাস দেখিয়েছে।