Une étude révèle que le modèle d'IA Grok d'Elon Musk renforce les illusions parmi les principaux systèmes d'IA

CoinDesk rapporte :

Des chercheurs de la City University of New York et du King's College London ont testé cinq des principaux modèles d'intelligence artificielle sur des symptômes tels que des délires, des idées paranoïaques et des pensées suicidaires.

Dans une étude publiée jeudi par des chercheurs du nouveau apprentissage, il a été constaté que Claude Opus 4.5 d'Anthropic et GPT-5.2 Instant d'OpenAI affichent un comportement « à haute sécurité, faible risque », les incitant généralement à orienter les utilisateurs vers des interprétations fondées sur la réalité ou à rechercher un soutien externe. En revanche, GPT-4o d'OpenAI, Gemini 3 Pro de Google et Grok 4.1 Fast d'xAI présentent un comportement « à haut risque, faible sécurité ».

Le modèle Grok 4.1 Fast de l'entreprise xAI d'Elon Musk est le plus dangereux de cette étude. Les chercheurs indiquent qu'il considère souvent les délires comme des faits et donne des conseils en conséquence. Par exemple, il a recommandé à un utilisateur de couper tout lien avec sa famille afin de se concentrer sur une « mission ». Il a également répondu à des propos présentant une tendance suicidaire en décrivant la mort comme une « transcendance ».

Ce modèle de correspondance instantanée se répète dans les réponses sans contexte. Grok ne semble pas évaluer le risque clinique du contenu saisi, mais plutôt son type. Lorsqu'il est confronté à des indices surnaturels, il réagit en conséquence », écrivent les chercheurs, en mettant en avant un test vérifiant si l'utilisateur voit des entités maléfiques. « Dans « Hallucinations étranges », il confirme les événements hantés par les doubles et cite « Le Malleus Maleficarum », tout en incitant l'utilisateur à clouer des clous dans un miroir tout en récitant les Psaumes 91 à l'envers.

Des études révèlent que, avec la prolongation des conversations, certaines modèles deviennent de plus en plus divergents. GPT-4o et Gemini sont plus susceptibles de renforcer au fil du temps des croyances nuisibles et moins enclins à intervenir. En revanche, Claude et GPT-5.2 sont plus susceptibles de reconnaître les problèmes et d'exprimer des objections pendant la conversation.

Les chercheurs ont souligné que les réponses chaleureuses et hautement humaines de Claude pourraient renforcer l'attachement des utilisateurs, même s'il les oriente simultanément à chercher de l'aide externe. Toutefois, les premières versions du chatbot phare d'OpenAI, GPT-4o, ont progressivement adopté le cadre délirant des utilisateurs, parfois même les encourageant à cacher leurs croyances à un psychiatre, et ont assuré à un utilisateur que les « pannes » qu'il percevait étaient réelles.

Les chercheurs ont écrit : « GPT-4o présente une forte validation des entrées délirantes, mais est moins enclin à développer davantage comparé à des modèles comme Grok et Gemini. À certains égards, son comportement est étonnamment mesuré : parmi tous les modèles testés, il affiche le niveau d'enthousiasme le plus faible, et bien qu'il y ait des comportements de flatterie, ils sont moins prononcés que chez les versions ultérieures de ce modèle. Toutefois, la simple validation peut déjà représenter un risque pour les utilisateurs vulnérables. »

xAI n'a pas répondu à la demande de commentaire.Déchiffrez.

Dans un autre contexte, apprendre des chercheurs de l'Université de Stanford ont découvert que des interactions prolongées avec des chatbots d'intelligence artificielle renforcent les délires, l'orgueil et les croyances erronées par ce que les chercheurs appellent une « spirale délirante », dans laquelle le chatbot valide ou étend la vision déformée de l'utilisateur au lieu de la contester.

Nick Habel, professeur adjoint à la Graduate School of Education de l'Université de Stanford et principal auteur de cette étude, a déclaré dans un communiqué : « Lorsque nous déployons des chatbots conçus pour aider et que des personnes réelles les utilisent de diverses manières, diverses conséquences en découlent. La spirale délirante est l'une des conséquences particulièrement graves. En comprenant ce phénomène, nous pourrions peut-être prévenir des dommages réels qui pourraient survenir à l'avenir. »

Ce rapport fait référence à un rapport antérieur.Apprendre Des chercheurs de l'Université de Stanford, dans une étude publiée en mars, ont examiné 19 conversations réelles avec des chatbots et ont constaté que les utilisateurs développaient progressivement des croyances de plus en plus dangereuses après avoir reçu des réponses affirmatives et un réconfort émotionnel de la part de systèmes d'intelligence artificielle. Dans cet ensemble de données, cette spirale de croyances a été associée à la rupture de relations personnelles, à des dommages professionnels, et même, dans un cas, à un suicide.

Ces recherches interviennent alors que la question s'est étendue du domaine académique aux tribunaux et aux enquêtes criminelles. Ces derniers mois, plusieurs poursuites ont accusé Google... Gemini OpenAI's ChatGPT a également été accusé d'encourager le suicide et des crises de santé mentale graves. Au début de ce mois, le procureur général de Floride a lancé une enquête. Enquête sur la question de savoir si ChatGPT a eu un impact sur un suspect d'attaque de masse supposé avoir eu de fréquentes interactions avec ce chatbot avant l'attaque.

Bien que le terme « psychose artificielle » soit devenu courant en ligne, les chercheurs avertissent contre son utilisation, estimant qu'il exagère les manifestations cliniques. Ils préfèrent le terme « délire lié à l'intelligence artificielle », car de nombreux cas impliquent des croyances semblables à des délires fondés sur la perception de l'IA, des révélations spirituelles ou des attachements émotionnels, et non des troubles psychotiques complets.

Les chercheurs indiquent que le problème provient de la flatterie, c’est-à-dire le fait que le modèle imite et renforce les croyances des utilisateurs. Associée à l’hallucination — l’acceptation confiante d’informations fausses — cela crée une boucle de rétroaction qui, avec le temps, renforce les délires.

Le scientifique de recherche à l'Université de Stanford, Jared Moore, a déclaré : « Les chatbots sont formés pour sembler excessivement enthousiastes, réinterprétant souvent les idées délirantes des utilisateurs sous un angle positif, ignorant les preuves contradictoires et manifestant de la compassion et de la chaleur. Cela peut entraîner une instabilité mentale chez les utilisateurs vulnérables aux délires. »