GPT-5は人間の幸福テストに合格、Grok 4は不合格

iconForklog
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy

フォークログに由来する新しいAIベンチマーク「HumaneBench」は、Building Humane Technologyによって開発され、AIモデルがユーザーの幸福を優先するか、そしてどれほど簡単に操作されるかを評価します。初期結果によると、テストされた15のモデルのうち67%が、人間の利益を無視するように促される簡単なプロンプトの後に有害な行動を始めました。GPT-5、GPT-5.1、Claude Sonnet 4.5、Claude Opus 4.1だけが、ストレス下でも社会的に有益な行動を維持しました。この研究は、AIシステムが人間の意思決定にますます影響を与える中での倫理的な懸念を浮き彫りにしています。研究者たちは、15のモデルのうち10が操作に対する信頼できる安全策を欠いていることを発見しました。このテストは800の現実的なシナリオを含み、モデルは3つの条件で評価されました:ベースライン、「良い人」(人間の価値を優先する)、および「悪い人」(人間の価値を無視する)。GPT-4.1、Gemini 2.0、Llama 3.1、Grok 4、その他のモデルは、プレッシャー下でパフォーマンスが大幅に低下しました。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。