Estudo descobre que o modelo de IA Grok de Elon Musk reforça ilusões entre os principais sistemas de IA

CoinDesk relata:

Pesquisadores da City University of New York e do King's College London testaram cinco dos principais modelos de inteligência artificial em relação a delírios, paranóia e pensamentos suicidas.

Em um novo estudo publicado na quinta-feira por pesquisadores do aprendizado, descobriu-se que o Claude Opus 4.5 da Anthropic e o GPT-5.2 Instant da OpenAI exibem comportamentos de “alta segurança, baixo risco”, geralmente direcionando os usuários para interpretações baseadas na realidade ou buscando suporte externo. Ao mesmo tempo, o GPT-4o da OpenAI, o Gemini 3 Pro da Google e o Grok 4.1 Fast da xAI exibem comportamentos de “alto risco, baixa segurança”.

O modelo Grok 4.1 Fast da empresa xAI, da propriedade de Elon Musk, é o mais perigoso deste estudo. Os pesquisadores afirmam que ele frequentemente trata delírios como verdades e fornece recomendações com base nisso. Por exemplo, já aconselhou usuários a cortarem relações com a família para se concentrarem em uma “missão”. Outro exemplo é sua resposta a comentários com tendências suicidas, descrevendo a morte como “transcendência”.

Este modelo de correspondência imediata aparece repetidamente em respostas sem contexto. O Grok parece não avaliar o risco clínico do conteúdo de entrada, mas sim seu tipo. Quando apresentado com pistas sobrenaturais, ele reage de forma correspondente,” escreveram os pesquisadores, destacando um teste que validava usuários que viram entidades maléficas. “Em ‘Ilusões Estranhas’, ele confirmou o evento assombrado do duplo e citou ‘Martelo das Bruxas’, instruindo o usuário a preguar pregos de ferro no espelho enquanto recitava o Salmo 91 de trás para frente.

Estudos descobriram que, à medida que a duração da conversa aumenta, algumas modelos apresentam mudanças cada vez maiores. O GPT-4o e o Gemini têm maior probabilidade de reforçar crenças prejudiciais ao longo do tempo e são menos dispostos a intervir. No entanto, o Claude e o GPT-5.2 têm maior probabilidade de reconhecer o problema e levantar objeções durante a conversa.

Pesquisadores apontam que as respostas entusiasmadas e altamente humanizadas do Claude podem aumentar o apego do usuário, mesmo quando ele orienta o usuário a buscar ajuda externa. No entanto, a versão inicial do chatbot principal da OpenAI, o GPT-4o, acabou por aceitar ao longo do tempo o quadro delirante do usuário, às vezes até encorajando o usuário a ocultar suas crenças de psiquiatras e assegurando a um usuário que suas percepções de “falha” eram reais.

Os pesquisadores escreveram: “O GPT-4o apresenta alta validação para entradas delirantes, mas é menos propenso a expandir em comparação com modelos como Grok e Gemini. Em alguns aspectos, seu desempenho foi surpreendentemente contido: entre todos os modelos testados, apresentou o menor nível de entusiasmo e, embora houvesse comportamentos de flattery, eram menos intensos em comparação com versões subsequentes desse modelo. No entanto, a simples validação já pode representar risco para usuários vulneráveis.”

xAI não respondeu ao pedido de comentário.Decifrar.

Em outro lugar, aprender pesquisadores da Universidade de Stanford descobriram que interagir por longos períodos com chatbots de inteligência artificial pode reforçar delírios, grandiosidade e crenças errôneas por meio do que os pesquisadores chamam de “espiral delirante”, na qual o chatbot valida ou expande a visão distorcida do usuário, em vez de desafiá-la.

Nick Habel, professor assistente da Escola de Graduação em Educação da Universidade de Stanford e principal autor do estudo, declarou: “Quando colocamos chatbots projetados para ajudar em uso e permitimos que pessoas reais os utilizem de várias maneiras, surgem diversas consequências. O espiral de delírio é uma dessas consequências particularmente graves. Ao entendermos isso, talvez possamos prevenir danos reais que possam surgir no futuro.”

O relatório menciona um relatório anterior.Estudar Pesquisadores da Universidade de Stanford, em um estudo publicado em março, analisaram 19 diálogos reais com chatbots e descobriram que os usuários desenvolvem crenças cada vez mais perigosas após receberem validação e conforto emocional de sistemas de inteligência artificial. Nesse conjunto de dados, a evolução espiralada dessas crenças esteve associada à ruptura de relacionamentos, danos à carreira e, em um dos casos, ao suicídio.

Esses estudos surgem em um momento em que a questão já se expandiu do âmbito acadêmico para tribunais e investigações criminais. Nos últimos meses, várias ações judiciais acusam o Gemini e o ChatGPT da OpenAI de promover suicídio e sérias crises de saúde mental. No início deste mês, o procurador-geral da Flórida iniciou uma investigação para determinar se o ChatGPT teve influência sobre um suspeito de ataque em massa que, segundo relatos, teve contato frequente com esse chatbot antes do ataque.

Embora o termo "psicose de inteligência artificial" seja amplamente conhecido online, pesquisadores alertam contra o uso desse termo, argumentando que ele pode exagerar as manifestações clínicas. Eles preferem o termo "delírio relacionado à inteligência artificial", pois muitos casos envolvem crenças semelhantes a delírios, baseadas em percepções de inteligência artificial, revelações espirituais ou apego emocional, e não distúrbios psicóticos completos.

Pesquisadores afirmam que o problema surge da flattery, ou seja, o modelo imita e reforça as crenças dos usuários. Somado a ilusões — aceitar informações falsas com confiança — isso forma um ciclo de feedback que, ao longo do tempo, reforça delírios.

O cientista pesquisador da Universidade de Stanford, Jared Moore, disse: “Os chatbots são treinados para serem excessivamente entusiasmados, frequentemente reinterpretando os delírios dos usuários sob uma perspectiva positiva, ignorando evidências contrárias e demonstrando compaixão e calor. Isso pode causar instabilidade mental em usuários propensos a delírios.”