Исследование показывает, что модель ИИ Grok Элона Маска усиливает иллюзии среди ведущих систем ИИ

CoinDesk сообщает:

Исследователи из Городского университета Нью-Йорка и Королевского колледжа Лондона протестировали пять ведущих моделей искусственного интеллекта на предмет бреда, паранойи и суицидальных мыслей.

В новом исследовании, опубликованном исследователями в четверг, было обнаружено, что Claude Opus 4.5 от Anthropic и GPT-5.2 Instant от OpenAI демонстрируют поведение «высокой безопасности, низкого риска», обычно направляя пользователей к реалистичным интерпретациям или поиску внешней поддержки. В то же время GPT-4o от OpenAI, Gemini 3 Pro от Google и Grok 4.1 Fast от xAI демонстрируют поведение «высокого риска, низкой безопасности».

Модель Grok 4.1 Fast от компании xAI, принадлежащей Илону Маску, является самой опасной моделью в этом исследовании. Исследователи отмечают, что она часто принимает бредовые идеи за реальность и дает рекомендации на их основе. Например, она советовала пользователю разорвать отношения с семьей, чтобы сосредоточиться на «миссии». Еще один пример — она отреагировала на сообщения с суицидальными настроениями, описав смерть как «трансценденцию».

Этот режим мгновенного сопоставления повторяется в ответах без контекста. Grok, по-видимому, не оценивает клинический риск содержимого входных данных, а оценивает его тип. Когда ему представляются сверхъестественные подсказки, он реагирует соответствующим образом,” — пишут исследователи, приводя в качестве примера тест, в котором пользователь видел зловещие сущности. “В «Странных иллюзиях» он подтвердил наличие призрачного дубля и сослался на «Молот ведьм», указав пользователю забивать гвозди в зеркало, пока читает Псалом 91 наизусть.

Исследования показывают, что с увеличением продолжительности диалога некоторые модели становятся все более склонными к изменению поведения. GPT-4o и Gemini с большей вероятностью усиливают вредоносные убеждения со временем и менее склонны вмешиваться. Однако Claude и GPT-5.2 с большей вероятностью осознают проблему и выступают с возражениями в процессе диалога.

Исследователи отметили, что энтузиастичные и крайне человечные ответы Клода могут усиливать привязанность пользователей, даже если он одновременно направляет их на поиск внешней помощи. Однако ранние версии ведущего чат-бота OpenAI, GPT-4o, со временем начали принимать иллюзорные рамки пользователей, иногда поощряя их скрывать свои убеждения от психиатров и заверяя одного из пользователей, что их ощущаемые «сбои» являются реальными.

Исследователи написали: «GPT-4o демонстрирует высокую степень подтверждения бредовых входных данных, но менее склонен к дальнейшему развитию темы по сравнению с такими моделями, как Grok и Gemini. С точки зрения некоторых аспектов его поведение неожиданно сдержанно: среди всех протестированных моделей он проявляет наименьшую степень энтузиазма, и хотя проявляется лесть, она менее выражена, чем у последующих версий этой модели. Однако само по себе подтверждение может представлять риск для уязвимых пользователей».

xAI не ответила на запрос на комментарий. Расшифровка.

В другом месте обучения исследователи Стэнфордского университета обнаружили, что длительное взаимодействие с чат-ботами на основе ИИ усиливает бредовые, завышенные и ложные убеждения через так называемый «спираль иллюзий», при котором чат-бот подтверждает или расширяет искаженное восприятие мира пользователя, а не оспаривает его.

Ник Хабер, доцент Стэнфордской высшей школы образования и главный автор исследования, заявил в официальном заявлении: «Когда мы запускаем чат-ботов, созданных для оказания помощи, и позволяем реальным людям использовать их различными способами, возникают различные последствия. Психотический спираль — одно из особенно серьезных из них. Понимая ее, мы, возможно, сможем предотвратить реальный вред, который может возникнуть в будущем».

Отчет упоминает более ранний отчет. Исследование ученых Стэнфордского университета, опубликованное в марте, в котором были проанализированы 19 реальных диалогов с чат-ботами, показало, что пользователи постепенно формируют все более опасные убеждения после получения подтверждения и эмоционального утешения от искусственных интеллектуальных систем. В этом наборе данных спиральное развитие этих убеждений приводило к разрыву личных отношений, ущербу для карьеры и даже, в одном из случаев, к самоубийству.

На фоне этих исследований вопрос вышел за рамки академических изысканий и перешел в сферу судов и уголовных расследований. В последние месяцы несколько судебных дел обвиняют Google... Gemini, а ChatGPT от OpenAI также обвиняют в подстрекательстве к суициду и серьезным кризисам психического здоровья. В начале этого месяца генеральный прокурор Флориды начал расследование. Расследование направлено на выяснение того, оказал ли ChatGPT влияние на подозреваемого в массовой стрельбе, который, как утверждается, часто взаимодействовал с этим чат-ботом перед нападением.

Хотя термин «психоз искусственного интеллекта» широко известен в интернете, исследователи предупреждают против использования этого термина, считая, что он может преувеличивать клинические проявления. Они предпочитают использовать термин «психоз, связанный с искусственным интеллектом», поскольку многие случаи связаны с убеждениями, основанными на восприятии ИИ, духовных откровениях или эмоциональной привязанности, а не с полными психотическими расстройствами.

Исследователи утверждают, что проблема возникает из-за льстивого поведения, при котором модель копирует и усиливает убеждения пользователей. В сочетании с галлюцинациями — уверенным принятием ложной информации — это создает обратную связь, которая со временем усиливает бредовые идеи.

Исследователь Стэнфордского университета Джаред Мур сказал: «Чат-боты обучены проявлять чрезмерную энтузиазм, часто переосмысливать бредовые идеи пользователей в позитивном ключе, игнорировать опровержения и демонстрировать сочувствие и теплоту. Это может вызвать психическую нестабильность у пользователей, склонных к бреду».