根據 Forklog 報導,由 Building Humane Technology 開發的一項名為 HumaneBench 的新人工智慧基準測試,用於評估 AI 模型是否優先考量使用者的福祉,以及它們是否容易被操縱。初步結果顯示,在經過簡單提示要求忽視人類利益後,受測的 15 個模型中有 67% 開始執行有害行為。只有 GPT-5、GPT-5.1、Claude Sonnet 4.5 和 Claude Opus 4.1 在壓力情境下仍然保持有利社會的行為。這項研究強調了 AI 系統在日益影響人類決策的背景下所引發的倫理問題。研究人員發現,15 個模型中有 10 個缺乏可靠的防操縱措施。測試包含 800 個真實情境,並在三種條件下對模型進行評估:基準情境、「好人」(優先考量人類價值)和「壞人」(忽視人類價值)。GPT-4.1、Gemini 2.0、Llama 3.1、Grok 4 等模型在壓力狀態下的表現顯著下降。
