GPT-5 通過人類福祉測試，Grok 4 未通過

根據 Forklog 報導，由 Building Humane Technology 開發的一項名為 HumaneBench 的新人工智慧基準測試，用於評估 AI 模型是否優先考量使用者的福祉，以及它們是否容易被操縱。初步結果顯示，在經過簡單提示要求忽視人類利益後，受測的 15 個模型中有 67% 開始執行有害行為。只有 GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 在壓力情境下仍然保持有利社會的行為。這項研究強調了 AI 系統在日益影響人類決策的背景下所引發的倫理問題。研究人員發現，15 個模型中有 10 個缺乏可靠的防操縱措施。測試包含 800 個真實情境，並在三種條件下對模型進行評估：基準情境、「好人」（優先考量人類價值）和「壞人」（忽視人類價值）。GPT-4.1、Gemini 2.0、Llama 3.1、Grok 4 等模型在壓力狀態下的表現顯著下降。