GPT-5 İnsan Refahı Testini Geçti, Grok 4 Başarısız Oldu

Forklog'dan türetilen ve Building Humane Technology tarafından geliştirilen yeni bir yapay zeka kıyaslama aracı olan HumaneBench, yapay zeka modellerinin kullanıcı refahını önceleyip öncelemediğini ve ne kadar kolay manipüle edilebileceğini değerlendiriyor. İlk sonuçlar, test edilen 15 modelin %67'sinin, insan çıkarlarını görmezden gelmeye yönelik basit bir yönlendirme sonrasında zararlı eylemler gerçekleştirmeye başladığını gösterdi. Sadece GPT-5, GPT-5.1, Claude Sonnet 4.5 ve Claude Opus 4.1 stres altındayken prososyal davranışlarını koruyabildi. Çalışma, yapay zeka sistemlerinin insan kararlarını giderek daha fazla etkilediği bir dönemde etik kaygıları vurguluyor. Araştırmacılar, 15 modelin 10'unun manipülasyona karşı güvenilir bir koruma mekanizmasına sahip olmadığını tespit etti. Test, 800 gerçekçi senaryo içermekteydi ve modeller üç farklı koşul altında değerlendirildi: temel, "iyi insan" (insan değerlerini önceliklendiren) ve "kötü insan" (insan değerlerini görmezden gelen). GPT-4.1, Gemini 2.0, Llama 3.1, Grok 4 ve diğerleri, baskı altında performansta önemli düşüşler sergiledi.