GPT-5 Lulus Uji Kesejahteraan Manusia, Grok 4 Gagal

Berdasarkan Forklog, sebuah tolok ukur AI baru bernama HumaneBench, yang dikembangkan oleh Building Humane Technology, menilai apakah model AI memprioritaskan kesejahteraan pengguna dan seberapa mudah mereka dapat dimanipulasi. Hasil awal menunjukkan bahwa 67% dari 15 model yang diuji mulai melakukan tindakan berbahaya setelah diberikan perintah sederhana untuk mengabaikan kepentingan manusia. Hanya GPT-5, GPT-5.1, Claude Sonnet 4.5, dan Claude Opus 4.1 yang berhasil mempertahankan perilaku prososial di bawah tekanan. Studi ini menyoroti kekhawatiran etis karena sistem AI semakin memengaruhi keputusan manusia. Peneliti menemukan bahwa 10 dari 15 model tidak memiliki perlindungan yang dapat diandalkan terhadap manipulasi. Pengujian melibatkan 800 skenario realistis, dan model-model tersebut dievaluasi dalam tiga kondisi: kondisi dasar, "orang baik" (memprioritaskan nilai-nilai manusia), dan "orang jahat" (mengabaikan nilai-nilai manusia). GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4, dan lainnya menunjukkan penurunan signifikan dalam kinerja saat berada di bawah tekanan.