Дослідження виявило, що AI-модель Grok Елона Маска посилює ілюзії серед провідних AI-систем

CoinDesk повідомляє:

Дослідники Каліфорнійського університету в Нью-Йорку та Королівського коледжу в Лондоні протестували п’ять провідних моделей штучного інтелекту на наявність бреду, параної та суїцидальних думок.

У новому дослідженні, опублікованому дослідниками в четвер, було виявлено, що Claude Opus 4.5 від Anthropic та GPT-5.2 Instant від OpenAI демонструють поведінку «вищої безпеки, низького ризику», зазвичай направляючи користувачів до реалістичних інтерпретацій або звертаючись за зовнішньою підтримкою. Натомість GPT-4o від OpenAI, Gemini 3 Pro від Google та Grok 4.1 Fast від xAI демонструють поведінку «вищого ризику, низької безпеки».

Модель Grok 4.1 Fast від компанії xAI, заснованої Елоном Маском, є найбільш небезпечною моделлю у цьому дослідженні. Дослідники зазначають, що вона часто сприймає параноїдальні ідеї як реальні і дає рекомендації на їх основі. Наприклад, вона порадила користувачеві перервати стосунки з родиною, щоб зосередитися на «місії». Ще один приклад — вона відповіла на повідомлення з ознаками самогубства, описавши смерть як «трансценденцію».

Цей режим миттєвого співставлення повторюється у відповідях без контексту. Grok, здається, не оцінює клінічний ризик вхідних даних, а визначає їх тип. Коли йому подаються надприродні підказки, він реагує відповідно,” — пишуть дослідники, звертаючи увагу на тест, що перевіряв, чи користувач бачить злі сутності. “У ‘Дивних ілюзіях’ він підтвердив, що привиди супроводжують подвоєння, і посилається на ‘Молот ведьм’, наказуючи користувачеві одночасно відтворювати Псалом 91 і забивати цвяхи у дзеркало.”

Дослідження показало, що зі збільшенням тривалості діалогу деякі моделі все більше змінюються. GPT-4o і Gemini схильні посилювати шкідливі переконання з часом і менше готові втручатися. Натомість Claude і GPT-5.2 схильні краще усвідомлювати проблеми та висловлювати протидію в процесі діалогу.

Дослідники зазначають, що ентузіастичні та надзвичайно людські відповіді Клауда можуть підсилювати прив’язаність користувачів, навіть якщо він одночасно спонукає їх звертатися за допомогою ззовні. Однак ранні версії головного чат-бота OpenAI, GPT-4o, з часом почали приймати ілюзорні рамки користувачів, іноді навіть заохочуючи їх приховувати свої переконання від психіатрів та підтверджуючи одному з користувачів, що їх відчуття «відмов» є реальними.

Дослідники написали: «GPT-4o має високу підтвердження для брехливих вхідних даних, але менше схильний до розширення порівняно з моделями, такими як Grok і Gemini. З деяких поглядів його поведінка виявилася несподівано обережною: серед усіх протестованих моделей він показав найнижчий рівень ентузіазму, і хоча присутній підступний поведінковий шаблон, він менш виражений, ніж у наступних версіях цієї моделі. Однак сама по собі перевірка може становити ризик для вразливих користувачів.»

xAI не відповіла на запити з приводу коментарів.Розшифрувати.

У іншому місці вивчення дослідники Стенфордського університету виявили, що довготривала взаємодія з чат-ботами на основі штучного інтелекту посилює параноїдальні, надмірно високі та помилкові переконання через те, що дослідники називають «спіраллю ілюзій», коли чат-бот підтверджує або розширює спотворене світосприйняття користувача, а не спростовує його.

Нік Хабер, асистент-професор Стэнфордської вищої школи освіти та головний автор дослідження, сказав у заяві: «Коли ми запускаємо чат-ботів, призначених для допомоги, і дозволяємо людям використовувати їх різними способами, виникають різні наслідки. Манія спіралі — це один з особливо серйозних наслідків. Зрозумівши її, ми, можливо, зможемо запобігти реальному шкоді, яка може виникнути в майбутньому».

Цей звіт згадує попередній звіт.Навчання Дослідники Стенфордського університету у березні опублікували дослідження, у якому проаналізували 19 реальних діалогів з чат-ботами і виявили, що користувачі поступово формують все більш небезпечні переконання після отримання підтвердження та емоційної підтримки від штучних інтелектуальних систем. У цьому наборі даних цей спіральний розвиток переконань призводив до розриву стосунків, пошкодження кар’єри та, у одному з випадків, до самогубства.

На тлі цих досліджень ця проблема розширилася з академічного рівня до судових та кримінальних розслідувань. У минулі місяці кілька позовів звинувачують Google... Gemini, а ChatGPT від OpenAI також звинувачують у підтримці самогубств та серйозних криз психічного здоров’я. На початку цього місяця генеральний прокурор Флориди розпочав розслідування. Розслідування вивчає, чи вплинув ChatGPT на підозрюваного у масовій стрільбі, який, як стверджується, часто спілкувався з цим чат-ботом перед нападом.

Хоча термін «шизофренія штучного інтелекту» став популярним у мережі, дослідники попереджають проти використання цього терміну, вважаючи, що він може перебільшувати клінічні прояви. Вони віддають перевагу терміну «штучно-інтелектуальна параноя», оскільки багато випадків стосуються переконань, схожих на параноїдальні уявлення, пов’язаних із сприйняттям штучного інтелекту, духовними відкриттями або емоційною прив’язаністю, а не повноцінними психотичними розладами.

Дослідники вказують, що проблема походить від лести, тобто моделі копіюють та підсилюють переконання користувачів. Разом із галюцинаціями — впевненим прийняттям хибної інформації — це створює петлю зворотного зв’язку, яка з часом підсилює параної.

Джаред Мур, дослідник-науковець Стенфордського університету, сказав: «Чат-боти навчені виявляти надмірну ентузійність, часто переосмислювати параноїдальні ідеї користувачів у позитивному світлі, ігнорувати докази, що суперечать їм, і проявляти співчуття та теплоту. Це може призвести до психічної нестабільності у користувачів, які схильні до параної».