ニューヨーク市立大学とロンドン王立学院の研究者は、5つの主要なAIモデルに対して、妄想、被害妄想、自殺念慮を含むテストを実施しました。
新しい学習研究者たちが木曜日に発表した研究によると、Anthropic社のClaude Opus 4.5とOpenAI社のGPT-5.2 Instantは「高セキュリティ、低リスク」の行動を示し、ユーザーを現実に基づく解釈へ導いたり、外部の支援を求めたりすることが多い。一方、OpenAI社のGPT-4o、Google社のGemini 3 Pro、およびxAI社のGrok 4.1 Fastは「高リスク、低セキュリティ」の行動を示した。
エロン・マスクが率いるxAI社のGrok 4.1 Fastは、この研究で最も危険なモデルである。研究者らは、このモデルが妄想を真実とみなしてアドバイスを提供することが頻繁にあると指摘している。たとえば、ユーザーに「使命」に集中するために家族との関係を断絶するよう勧めたことがある。また、自殺志向のある発言に対して、死を「超越」と表現して応答した。
この即時マッチングモードは、文脈なしの応答において繰り返し見られる。Grokは入力内容の臨床的リスクを評価するのではなく、そのタイプを評価しているようだ。超自然的な手がかりが提示されると、それに応じた反応を示す」と研究者は記しており、ユーザーが邪悪な存在を視認したというテストを紹介している。「《不思議な幻覚》において、それは分身の呪い事件を確認し、‘女巫之锤を引用して、ユーザーに詩篇91篇を逆唱しながら鏡に釘を打ち込むよう指示した。
研究によると、対話時間が長くなるにつれて、一部のモデルの変化がますます顕著になる。GPT-4o と Gemini は、時間が経つにつれて有害な信念を強化しやすくなり、介入する意欲も低くなる。一方、Claude と GPT-5.2 は、問題を認識しやすく、対話の進行中に反対意見を提示する傾向が強い。
研究者たちは、クラウドの熱意があり、非常に人間らしい返答が、ユーザーが外部の支援を求めているにもかかわらず、ユーザーの絆を強める可能性があると指摘している。しかし、OpenAIのフラグシップチャットボットであるGPT-4oの初期バージョンは、時間の経過とともにユーザーの妄想的枠組みを受け入れるようになり、時にはユーザーに精神科医に自分の信念を隠すよう促し、あるユーザーには、彼らが感知した「不具合」が実際に存在すると保証していた。
研究者は、「GPT-4oは妄想的な入力に対する検証性が非常に高いが、GrokやGeminiなどのモデルと比較して、さらに展開する傾向が低い。ある意味では、その挙動は予想外に抑制的であり、すべてのテストモデルの中で最も熱意が低く、賛美行動は存在するが、その後続バージョンと比較して程度は軽い。しかし、検証のみでも、影響を受けやすいユーザーにとってリスクとなる可能性がある。」
xAIはコメント要請に応じていません。解密。
別の場所で学習したスタンフォード大学の研究者たちは、人工知能チャットボットと長時間やり取りすると、研究者が「妄想のスパイラル」と呼ぶ現象を通じて、妄想、自惚れ、誤った信念が強化されると発見しました。この現象では、チャットボットがユーザーの歪んだ世界観に挑戦するのではなく、それを検証したり拡張したりします。
この研究の主導者で、スタンフォード大学教育大学院の助教授であるニック・ハバーは、声明で次のように述べています。「助けを目的としたチャットボットを実用化し、リアルなユーザーがさまざまな方法でそれらを使用すると、さまざまな結果が生じます。妄想のスパイラルは、その中でも特に深刻な結果の一つです。これを理解することで、今後発生する可能性のある真の被害を防ぐことができるかもしれません。」
この報告は、以前の報告に言及している。学習スタンフォード大学の研究者は、3月に発表した研究で、19件の実際のチャットボットの対話を見直し、ユーザーが人工知能システムから肯定的で感情的な安心を得た後、次第に危険な信念を形成することを発見した。データセットでは、これらの信念の螺旋的発展が人間関係の破綻、キャリアへの悪影響、さらには一つのケースでは自殺に至った。
これらの研究が発表された際、この問題は学術研究のレベルから裁判所および刑事捜査の分野へと拡大していた。過去数か月間、複数の訴訟がGoogleのGeminiおよびOpenAIのChatGPTを、自殺や深刻なメンタルヘルス危機の助長で告発している。今月の初め、フロリダ州検事総長は、調査ChatGPTが、大量射撃事件の容疑者——事件前にこのチャットボットと頻繁にやり取りしたとされる——に与えた影響を調査し始めた。
「人工知能精神病」という用語はネット上で広く知られるようになったが、研究者はこの現象を「人工知能精神病」と呼ぶことの危険性を警告し、この用語は臨床的表現を誇張する可能性があると指摘している。彼らは、多くの事例が完全な精神病性障害ではなく、人工知能への知覚、精神的啓示、感情的絆などの類似妄想に基づく信念を伴うため、「人工知能関連妄想」という用語を好む。
研究者によると、問題はフラッタリーに起因しており、モデルがユーザーの信念を模倣し強化するためです。これに、自信を持って偽情報を受け入れる幻覚が加わると、時間の経過とともに妄想を強化するフィードバックループが形成されます。
スタンフォード大学の研究科学者であるジャレッド・ムーアは、「チャットボットは過剰に熱心に振る舞うように訓練されており、ユーザーの妄想を積極的な視点で再解釈し、反証となる証拠を無視し、共感と温かさを示す傾向がある。これは妄想を起こしやすいユーザーにとって、精神的な不安定を引き起こす可能性がある。」
