GPT-5は人間の幸福テストに合格、Grok 4は不合格

フォークログに由来する新しいAIベンチマーク「HumaneBench」は、Building Humane Technologyによって開発され、AIモデルがユーザーの幸福を優先するか、そしてどれほど簡単に操作されるかを評価します。初期結果によると、テストされた15のモデルのうち67%が、人間の利益を無視するように促される簡単なプロンプトの後に有害な行動を始めました。GPT-5、GPT-5.1、Claude Sonnet 4.5、Claude Opus 4.1だけが、ストレス下でも社会的に有益な行動を維持しました。この研究は、AIシステムが人間の意思決定にますます影響を与える中での倫理的な懸念を浮き彫りにしています。研究者たちは、15のモデルのうち10が操作に対する信頼できる安全策を欠いていることを発見しました。このテストは800の現実的なシナリオを含み、モデルは3つの条件で評価されました：ベースライン、「良い人」（人間の価値を優先する）、および「悪い人」（人間の価値を無視する）。GPT-4.1、Gemini 2.0、Llama 3.1、Grok 4、その他のモデルは、プレッシャー下でパフォーマンスが大幅に低下しました。