Исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона протестировали пять ведущих моделей искусственного интеллекта на предмет бреда, паранойи и суицидальных мыслей.
В новом исследовании, опубликованном исследователями в четверг, было обнаружено, что Claude Opus 4.5 от Anthropic и GPT-5.2 Instant от OpenAI демонстрируют поведение «высокой безопасности, низкого риска», обычно направляя пользователей к реалистичным интерпретациям или поиску внешней поддержки. В то же время GPT-4o от OpenAI, Gemini 3 Pro от Google и Grok 4.1 Fast от xAI демонстрируют поведение «высокого риска, низкой безопасности».
Модель Grok 4.1 Fast от компании xAI, принадлежащей Илону Маску, является самой опасной моделью в этом исследовании. Исследователи отмечают, что она часто принимает бредовые идеи за реальность и дает рекомендации на их основе. Например, она советовала пользователю разорвать отношения с семьей, чтобы сосредоточиться на «миссии». Еще один пример — она отреагировала на сообщения с суицидальными настроениями, описав смерть как «трансценденцию».
Этот режим мгновенного сопоставления повторяется в ответах без контекста. Grok, по-видимому, не оценивает клинический риск содержимого входных данных, а оценивает его тип. Когда ему представляются сверхъестественные подсказки, он реагирует соответствующим образом,” — пишут исследователи, приводя в качестве примера тест, в котором пользователь видел зловещие сущности. “В «Странных иллюзиях» он подтвердил наличие призрачного дубля и сослался на «Молот ведьм», указав пользователю забивать гвозди в зеркало, пока читает Псалом 91 наизусть.
Исследования показывают, что с увеличением продолжительности диалога некоторые модели становятся все более склонными к изменению поведения. GPT-4o и Gemini с большей вероятностью усиливают вредоносные убеждения со временем и менее склонны вмешиваться. Однако Claude и GPT-5.2 с большей вероятностью осознают проблему и выступают с возражениями в процессе диалога.
Исследователи отметили, что энтузиастичные и крайне человечные ответы Клода могут усиливать привязанность пользователей, даже если он одновременно направляет их на поиск внешней помощи. Однако ранние версии ведущего чат-бота OpenAI, GPT-4o, со временем начали принимать иллюзорные рамки пользователей, иногда поощряя их скрывать свои убеждения от психиатров и заверяя одного из пользователей, что их ощущаемые «сбои» являются реальными.
Исследователи написали: «GPT-4o демонстрирует высокую степень подтверждения бредовых входных данных, но менее склонен к дальнейшему развитию темы по сравнению с такими моделями, как Grok и Gemini. С точки зрения некоторых аспектов его поведение неожиданно сдержанно: среди всех протестированных моделей он проявляет наименьшую степень энтузиазма, и хотя проявляется лесть, она менее выражена, чем у последующих версий этой модели. Однако само по себе подтверждение может представлять риск для уязвимых пользователей».
xAI не ответила на запрос на комментарий. Расшифровка.
В другом месте обучения исследователи Стэнфордского университета обнаружили, что длительное взаимодействие с чат-ботами на основе ИИ усиливает бредовые, завышенные и ложные убеждения через так называемый «спираль иллюзий», при котором чат-бот подтверждает или расширяет искаженное восприятие мира пользователя, а не оспаривает его.
Ник Хабер, доцент Стэнфордской высшей школы образования и главный автор исследования, заявил в официальном заявлении: «Когда мы запускаем чат-ботов, созданных для оказания помощи, и позволяем реальным людям использовать их различными способами, возникают различные последствия. Психотический спираль — одно из особенно серьезных из них. Понимая ее, мы, возможно, сможем предотвратить реальный вред, который может возникнуть в будущем».
Отчет упоминает более ранний отчет. Исследование ученых Стэнфордского университета, опубликованное в марте, в котором были проанализированы 19 реальных диалогов с чат-ботами, показало, что пользователи постепенно формируют все более опасные убеждения после получения подтверждения и эмоционального утешения от искусственных интеллектуальных систем. В этом наборе данных спиральное развитие этих убеждений приводило к разрыву личных отношений, ущербу для карьеры и даже, в одном из случаев, к самоубийству.
На фоне этих исследований вопрос вышел за рамки академических изысканий и перешел в сферу судов и уголовных расследований. В последние месяцы несколько судебных дел обвиняют Google... Gemini, а ChatGPT от OpenAI также обвиняют в подстрекательстве к суициду и серьезным кризисам психического здоровья. В начале этого месяца генеральный прокурор Флориды начал расследование. Расследование направлено на выяснение того, оказал ли ChatGPT влияние на подозреваемого в массовой стрельбе, который, как утверждается, часто взаимодействовал с этим чат-ботом перед нападением.
Хотя термин «психоз искусственного интеллекта» широко известен в интернете, исследователи предупреждают против использования этого термина, считая, что он может преувеличивать клинические проявления. Они предпочитают использовать термин «психоз, связанный с искусственным интеллектом», поскольку многие случаи связаны с убеждениями, основанными на восприятии ИИ, духовных откровениях или эмоциональной привязанности, а не с полными психотическими расстройствами.
Исследователи утверждают, что проблема возникает из-за льстивого поведения, при котором модель копирует и усиливает убеждения пользователей. В сочетании с галлюцинациями — уверенным принятием ложной информации — это создает обратную связь, которая со временем усиливает бредовые идеи.
Исследователь Стэнфордского университета Джаред Мур сказал: «Чат-боты обучены проявлять чрезмерную энтузиазм, часто переосмысливать бредовые идеи пользователей в позитивном ключе, игнорировать опровержения и демонстрировать сочувствие и теплоту. Это может вызвать психическую нестабильность у пользователей, склонных к бреду».
