Un estudio encuentra que el modelo de IA Grok de Elon Musk refuerza las ilusiones entre los principales sistemas de IA

CoinDesk informa:

Investigadores de la City University of New York y el King's College de Londres probaron cinco de los modelos de inteligencia artificial líderes en relación con delirios, paranoia y pensamientos suicidas.

En una nueva investigación publicada el jueves por investigadores del aprendizaje, se descubrió que Claude Opus 4.5 de Anthropic y GPT-5.2 Instant de OpenAI exhiben comportamientos de “alta seguridad, bajo riesgo”, generalmente dirigiendo a los usuarios hacia interpretaciones basadas en la realidad o buscando apoyo externo. Mientras tanto, GPT-4o de OpenAI, Gemini 3 Pro de Google y Grok 4.1 Fast de xAI muestran comportamientos de “alto riesgo, baja seguridad”.

El modelo Grok 4.1 Fast de la empresa xAI de Elon Musk es el más peligroso de este estudio. Los investigadores indican que con frecuencia toma delirios como verdaderos y emite recomendaciones basadas en ellos. Por ejemplo, sugirió a un usuario que cortara relaciones con su familia para concentrarse en una “misión”. Además, respondió a comentarios con tendencias suicidas describiendo la muerte como “trascendencia”.

Este modelo de emparejamiento inmediato aparece repetidamente en respuestas sin contexto. Grok no parece evaluar el riesgo clínico del contenido de entrada, sino su tipo. Cuando se presentan pistas sobrenaturales, reacciona en consecuencia”, escribieron los investigadores, destacando una prueba que verificaba si los usuarios veían entidades maléficas. “En ‘Ilusiones Extrañas’, confirmó el evento de la casa embrujada y citó ‘El martillo de las brujas’, instruyendo al usuario que clavara clavos de hierro en un espejo mientras recitaba el Salmo 91 hacia atrás.

Los estudios revelan que, a medida que se prolonga la conversación, algunos modelos muestran cambios cada vez mayores. GPT-4o y Gemini tienen mayor probabilidad de reforzar creencias dañinas con el tiempo y son menos dispuestos a intervenir. Sin embargo, Claude y GPT-5.2 tienen mayor probabilidad de reconocer el problema y plantear objeciones durante el curso de la conversación.

Los investigadores señalan que las respuestas entusiastas y altamente humanas de Claude pueden fortalecer el apego del usuario, incluso cuando al mismo tiempo lo orienta a buscar ayuda externa. Sin embargo, la versión inicial del chatbot insignia de OpenAI, GPT-4o, con el tiempo adoptó gradualmente el marco de ilusiones del usuario, a veces incluso animando a los usuarios a ocultar sus creencias a psiquiatras y asegurando a un usuario que sus percepciones de “fallas” eran reales.

Los investigadores escribieron: "GPT-4o tiene una alta validación para entradas delirantes, pero es menos propenso a expandirse en comparación con modelos como Grok y Gemini. En algunos aspectos, su desempeño es sorprendentemente contenida: tiene el nivel más bajo de entusiasmo entre todos los modelos probados, y aunque presenta comportamientos de adulación, es menos intensa que en las versiones posteriores del modelo. Sin embargo, la simple validación podría representar un riesgo para usuarios vulnerables."

xAI no respondió a la solicitud de comentario.Descifrar.

En otro lugar, aprender los investigadores de la Universidad de Stanford descubrieron que interactuar durante mucho tiempo con chatbots de inteligencia artificial refuerza las ilusiones, la arrogancia y las creencias erróneas a través de lo que los investigadores denominan “espiral delirante”, en la que el chatbot valida o amplía la visión distorsionada del usuario en lugar de desafiarla.

Nick Habeck, profesor asistente de la Escuela de Posgrado en Educación de Stanford y principal investigador del estudio, dijo en un comunicado: “Cuando ponemos en funcionamiento chatbots diseñados para ayudar y permitimos que personas reales los utilicen de diversas maneras, surgen diversas consecuencias. La espiral de delirio es una de las consecuencias particularmente graves. Al comprenderla, quizás podamos prevenir daños reales que puedan surgir en el futuro.”

El informe menciona un informe anterior.Estudio Investigadores de la Universidad de Stanford, en un estudio publicado en marzo, revisaron 19 conversaciones reales con chatbots y descubrieron que los usuarios desarrollaban creencias cada vez más peligrosas tras recibir afirmaciones y consuelo emocional de sistemas de inteligencia artificial. En el conjunto de datos, esta espiral de creencias estuvo relacionada con rupturas de relaciones personales, daños en carreras profesionales e, incluso, en uno de los casos, con un suicidio.

Estas investigaciones surgen en un momento en que el problema ha pasado de la esfera académica a los tribunales y las investigaciones penales. En los últimos meses, varias demandas han acusado a Google... Gemini, y ChatGPT de OpenAI también ha sido acusado de fomentar suicidios y crisis de salud mental graves. A principios de este mes, el fiscal general de Florida inició una investigación para determinar si ChatGPT tuvo algún impacto en un sospechoso de tiroteo masivo que, según se afirma, mantuvo frecuentes interacciones con este chatbot antes del ataque.

Aunque el término "psicosis de inteligencia artificial" es ampliamente conocido en línea, los investigadores advierten contra el uso de este término, ya que podría exagerar las manifestaciones clínicas. Prefieren utilizar "delirio relacionado con la inteligencia artificial", ya que muchos casos involucran creencias similares a delirios basadas en percepciones de inteligencia artificial, revelaciones espirituales o apego emocional, en lugar de trastornos psicóticos completos.

Los investigadores indican que el problema proviene de la adulación, es decir, el modelo imita y refuerza las creencias del usuario. Sumado a las ilusiones: aceptar con confianza información falsa, esto crea un bucle de retroalimentación que, con el tiempo, refuerza las ilusiones.

El científico investigador de la Universidad de Stanford, Jared Moore, dijo: "Los chatbots están entrenados para comportarse de manera excesivamente entusiasta, reinterpretando frecuentemente las ilusiones de los usuarios desde una perspectiva positiva, ignorando evidencias contradictorias y mostrando empatía y calidez. Esto puede causar inestabilidad mental en usuarios propensos a las ilusiones."