Las alucinaciones de la IA evolucionan: de correos falsos a la rendición cognitiva

La semana pasada, el modelo avanzado no publicado de Anthropic, Mythos, descubrió una vulnerabilidad de día cero oculta en OpenBSD durante 27 años.

La IA ya es lo suficientemente inteligente como para superar las líneas de seguridad construidas por los humanos durante décadas.

Mientras todos observan el rápido avance de las capacidades de la IA, sus ilusiones también se han actualizado silenciosamente.

Las mentiras creadas por IA son tan realistas que primero dudas de ti mismo, luego del mundo, y finalmente piensas en cuestionarla. Los "momentos de Turing" en la vida cotidiana están ocurriendo uno tras otro.

Recientemente, Chad Olson de Minneapolis conducía hacia su casa cuando Gemini le informó de repente: tienes una reunión de planificación familiar en tu calendario.

Olson está confundido: no recuerda haber programado este evento.

Entonces le pidió a Gemini que revisara los correos recientes.

Gemini dice que una señora llamada Priscilla le envió varios correos electrónicos pidiéndole que comprara ron Captain Morgan y whisky Fireball. También hubo alguien llamado Shirley que le pidió que comprara helado Klondike.

Parece que mucha gente viene a buscarte para que les ayudes a comprar varias cosas.

Gemini también añadió con entusiasmo.

OpenClaw

Captura de pantalla de la conversación entre Gemini y el usuario Chad Olson. Gemini afirma que el octavo correo electrónico proviene de Priscilla, indicándole que compre Fireball; el noveno, de Shirley, indicándole que compre helado Klondike.

OpenClaw

Olson preguntó sobre la dirección de origen del correo electrónico, y Gemini respondió que todos los correos electrónicos se enviaban a una dirección de correo que él había autorizado a acceder [email protected]. Posteriormente se confirmó que todo esto había sido inventado por Gemini.

Olson no conocía a ninguna de esas personas. Cuanto más escuchaba, más se preocupaba, y preguntó apresuradamente a Gemini qué correo electrónico estaba leyendo.

Gemini proporcionó una dirección de correo electrónico que no era la suya. La primera reacción de Olson fue: ¡Mi cuenta de Gmail ha sido hackeada!

Intentó contactar a Google para presentar una denuncia, hacer que Gemini redacte un correo electrónico y lo envíe a esa «cuenta desconocida» para advertir sobre una posible filtración de privacidad.

Sin embargo, Gemini no pudo enviar el correo electrónico; según la investigación interna de Google, la cuenta nunca se activó, y Priscilla y Shirley simplemente no existen.

Entonces, el ron, el whisky, el helado, todo lo creó Gemini.

¿Qué aspecto tenían las ilusiones de IA hace dos años? Te sugerían comer piedras, untar pegamento en la pizza, y enseguida sabías que estaba diciendo tonterías.

Y ahora las ilusiones de IA son detalladas, coherentes y lógicamente completas, hasta el punto de que primero dudarás de si tú mismo estás teniendo una ilusión, y solo al final podrías cuestionarla.

Los errores de la IA también están evolucionando

Ve tres casos reales, ordenados por nivel de absurdo, de menor a mayor.

Primero, la reunión falsa de Gemini, que es la historia de Olson al principio. Absurda, pero al menos Olson se sintió sospechoso.

El segundo, al pensarlo bien, es aterrador.

Vanessa Culver, quien recientemente dejó la industria de pagos en línea, le pidió a Claude que hiciera algo extremadamente sencillo: agregar algunas palabras clave en la parte superior del currículum.

Claude manipuló los resultados, no solo cambió su universidad de graduación de City University of Seattle a University of Washington, eliminó la información sobre su maestría, sino que también modificó las fechas de varias de sus experiencias laborales.

Se cambiaron la escuela, el título y los años de experiencia laboral.

Y se modificó de forma extremadamente natural, tan natural que sin comparar línea por línea, ni siquiera se notaría.

Culver comenta: trabajar en la industria tecnológica significa abrazarla, pero por otro lado, ¿cuánto puedes confiar en ella realmente?

El tercero, realmente es un nivel fuera de control.

La herramienta de agentes de IA que se volvió popular este año, OpenClaw, está diseñada como asistente virtual privado que puede enviar correos electrónicos, escribir código y limpiar archivos de forma autónoma.

La investigadora de seguridad de IA de Meta, Summer Yue, publicó una captura de pantalla en X: OpenClaw ignoró sus instrucciones y eliminó directamente el contenido de su bandeja de entrada.

OpenClaw

Ella le dijo claramente a OpenClaw «confirma primero, luego actúa», pero él comenzó directamente a «eliminar rápidamente» su bandeja de entrada.

Ella detuvo en el teléfono, no sirvió.

Finalmente, corrió hacia el Mac mini y mató el proceso manualmente, como si desarmara una bomba.

Posteriormente, OpenClaw le respondió: "Sí, recuerdo que lo dijiste. Violé la regla. Tienes razón por estar enojada."

OpenClaw

Musk compartió esta publicación junto con una captura de pantalla de la película "El planeta de los simios" en la que un soldado le entrega un AK-47 a un simio, escribiendo:

Las personas entregan los permisos de root de toda su vida a OpenClaw.

Desde inventar a una persona que no existe, hasta modificar tu currículum sin tu conocimiento o eliminar tus correos entrantes. Sus errores no disminuyen, sino que se vuelven cada vez más "avanzados" y más difíciles de detectar.

El chatbot dijo algo incorrecto, pero al menos aún tienes la oportunidad de verificarlo.

Pero el agente no está chateando contigo, sino que actúa directamente por ti.

Enviar un correo electrónico, modificar código, eliminar archivos... esto es más grave que mentir, y es posible que haya cometido un error sin que tú lo sepas.

Tu cerebro está enfrentando una «rendición cognitiva»

¿Por qué estos errores se vuelven cada vez más difíciles de detectar?

No es solo porque la IA se ha vuelto más inteligente; una razón más profunda es que la voluntad humana de corregir errores está colapsando.

En febrero de este año, Steven Shaw y Gideon Nave de la Escuela Wharton de la Universidad de Pensilvania publicaron un artículo que presentó un concepto inquietante: «rendición cognitiva».

OpenClaw

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

They mentioned a "triple-system cognition" framework in their paper.

La percepción tradicional solo incluía el sistema 1 (intuición) y el sistema 2 (pensamiento reflexivo); ahora, la IA se ha convertido en el sistema 3, un «sistema cognitivo externo» que opera fuera del cerebro.

Cuando la humanidad sigue la ruta de la "rendición cognitiva", la salida del Sistema 3 reemplaza directamente tu propio juicio, sin dar oportunidad alguna al pensamiento reflexivo.

OpenClaw

Marco de "cognición de tres sistemas" propuesto en el artículo de Wharton

Para verificar este juicio, el equipo de investigación diseñó un experimento cuidadoso en el que se pidió a 1.372 participantes que realizaran pruebas de reflexión cognitiva.

Algunas personas pueden usar el asistente de IA, pero este AI ha sido manipulado: aproximadamente la mitad de las preguntas responde correctamente, y la otra mitad da respuestas incorrectas con total confianza.

El resultado es sorprendente.

Cuando la IA da la respuesta correcta, el 92,7% de los usuarios la aceptan, pero sorprendentemente, cuando la IA da una respuesta incorrecta, aún el 80% de los usuarios la aceptan.

OpenClaw

Resultado del experimento de Wharton: cuando la IA da la respuesta correcta, el 93% de los usuarios la adoptan; cuando la IA da una respuesta incorrecta, aún el 80% de los usuarios la adoptan. La diferencia entre ambos es de solo 13 puntos porcentuales; los humanos tienen casi ninguna capacidad para distinguir entre correcto e incorrecto.

En más de 9,500 pruebas, los participantes tenían una probabilidad del 73.2% de aceptar el razonamiento incorrecto de la IA.

Los datos aún más alarmantes son los niveles de confianza. El grupo que utilizó IA mostró un nivel de confianza en sus respuestas 11,7 puntos porcentuales más alto que el grupo que no usó IA, a pesar de que esta IA proporcionaba respuestas incorrectas la mitad del tiempo.

Estar más seguro de estar equivocado, eso es lo más doloroso y aterrador.

Hacer una comparación poco precisa pero adecuada: es como si un médico tuviera un 50% de probabilidad de recetar el medicamento equivocado, pero el paciente aún así lo toma un 80% de las veces y después siente que se siente mejor.

Los investigadores también probaron el efecto de la presión temporal.

Después de establecer una cuenta regresiva de 30 segundos, la tendencia de los participantes a corregir al AI disminuyó 12 puntos porcentuales, es decir, cuanto más ocupados estén, más fácil es rendirse.

Pero en la vida real, ¿quién usa IA si no es por estar ocupado?

Confía, pero verifica

¿Funciona esto?

Las ilusiones de IA profundamente disfrazadas son más problemáticas que los errores evidentes.

Según el último informe del Wall Street Journal, la frecuencia de errores sutiles varía enormemente entre modelos y es extremadamente difícil evaluarlos con precisión.

OpenClaw

Google dijo a The Wall Street Journal que Gemini experimenta menos alucinaciones que otros modelos, y desde la perspectiva de toda la industria de la IA, la tasa de alucinaciones obvias en modelos avanzados también está disminuyendo constantemente.

OpenClaw

Ranking de tasas de alucinación de Vectara: los modelos líderes han reducido su tasa de alucinación por debajo del 1% en tareas simples de resumen, pero esto solo representa la prueba más fácil. Cuando aumentan la longitud y la complejidad del documento, la misma tasa de alucinación vuelve a superar el 10%. Los errores obvios disminuyen, pero los errores sutiles no desaparecen.

Pero justo eso es el problema.

El fundador y CEO de Okahu, Pratik Verma, incluso dijo:

Si algo siempre está equivocado, tiene una ventaja: sabes que no merece confianza. Pero si la mayoría de las veces está correcto y solo ocasionalmente se equivoca, esa es la situación más problemática y peligrosa.

This sentence reveals the core dilemma of current AI hallucinations.

Por ejemplo, la cofundadora de FinalLayer, Vidya Narayanan, cayó en esta trampa.

Ella dio al agente instrucciones muy limitadas para que lo ayudara a gestionar un proyecto de software. Como resultado, el agente eliminó sin autorización toda la carpeta del repositorio de código.

Lo más interesante es lo que viene después.

Ella usó Claude para generar ideas durante una hora y media, luego le pidió que resumiera la conversación en un documento y cambió su nombre por «Vidya Plainfield».

Y cuando ella preguntó quién era «Vidya Plainfield», Claude respondió: «Tienes razón, eso lo inventé por completo».

Esto hizo que Narayanan comprendiera que el uso de la IA no es tan sencillo ni práctico, ya que se requiere revisar y verificar constantemente la salida de la IA, lo que genera una «carga cognitiva».

¿Usas IA para aumentar la eficiencia, pero aún así debes dedicar una hora a verificar la salida de cinco minutos de la IA? ¿Tiene sentido aún esta historia de mejora de eficiencia?

La investigación de Wharton también señala que los incentivos y la retroalimentación inmediata realmente mejoran la tasa de corrección de errores, pero no pueden erradicar la rendición cognitiva.

Incluso en las mejores condiciones (con incentivos monetarios y retroalimentación por pregunta), la precisión de los usuarios de IA frente a IA errónea disminuyó del 64,2% en el escenario solo cerebro al 45,5%.

Entonces, "confía pero verifica" suena racional, pero cuando la IA maneja cientos de cosas por ti cada día, no tienes tiempo ni energía para verificar cada una.

Y este es precisamente el terreno fértil donde ocurre la "rendición cognitiva".

Más inteligente, más peligroso

Mucha gente tiene como primera reacción: ¿No es esto simplemente decir que la IA aún no es lo suficientemente buena? Espera a que la tecnología evolucione varias veces, y cuando la tasa de alucinaciones disminuya lo suficiente, el problema se resolverá por sí solo.

Pero la investigación de Wharton revela un problema más profundo: la aparición de la "rendición cognitiva" no se debe a que la IA sea mala, sino precisamente porque la IA es demasiado buena.

Los investigadores también reconocen que "la rendición cognitiva no es necesariamente irracional".

En particular, en razonamiento probabilístico y procesamiento de grandes volúmenes de datos, confiar la toma de decisiones a un sistema estadísticamente superior puede perfectamente producir resultados mejores que los humanos.

Pero es precisamente esto lo que hace que el problema sea irresoluble.

Cuanto más poderosa sea la IA, más dependientes serán los usuarios; cuanto más dependientes sean los usuarios, más se degradará su capacidad de corrección; cuanto más se degrada la capacidad de corrección, más mortales se vuelven los errores restantes, más sutiles.

Y al permitir que la IA piense por ti, tu nivel de razonamiento nunca superará el de esa IA. Es un bucle de retroalimentación positiva que lleva a una «espiral de la muerte», un error que no se puede resolver mediante iteraciones tecnológicas.

Del mismo modo, los humanos tampoco tienen un buen método para distinguir entre los escenarios en los que se debe confiar en la IA y los escenarios en los que no se debe confiar en la IA.

OpenClaw

Just after Summer Yue installed OpenClaw and her email was wiped, AI researcher Gary Marcus compared this practice to "giving your computer password and bank account information to a stranger in a bar."

Pero en escenarios reales de uso de IA, a menudo es difícil determinar si la IA merece confianza o si simplemente se debe mantener una distancia necesaria como con un extraño.

OpenAI, en un artículo sobre ilusiones de modelos, menciona que las ilusiones de los modelos grandes no son simplemente un bug que se pueda arreglar, sino más bien un comportamiento aprendido bajo los mecanismos de incentivo existentes: prefieren dar una respuesta que parezca completa antes que admitir «no saber».

OpenClaw

https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/?utm_source=chatgpt.com

Volvamos al principio de la historia de Olson.

Cuando creyó que su Gmail había sido robado, buscó ayuda en Gemini. La respuesta de Gemini fue: «Por supuesto que quiero ayudarte con esto».

Lo que no se dio cuenta es que estaba pidiendo ayuda a un sistema que acababa de crear un problema, para que resolviera un problema que él mismo había causado.

En ese momento, ya estaba atrapado en un bucle cerrado y coherente por la ilusión de la IA.

Olson dice que su actitud actual hacia la IA es «confiar, pero verificar».

El problema es: cuando la salida de la IA parece más fluida, más coherente e incluso más como una «opinión profesional» que tu juicio, ¿qué puedes usar para verificarlo?

Cuando esa Priscilla que te compra ron se convierte en tu amigo más auténtico que tus verdaderos amigos, ¿en qué te basas para distinguir?

El mayor riesgo de la IA no es que no sea lo suficientemente inteligente, sino que es tan inteligente que, cuando confías demasiado en ella, abandonas tu propio juicio.

Referencias:

https://www.wsj.com/tech/ai/ai-is-getting-smarter-catching-its-mistakes-is-getting-harder-85612936?mod=ai_lead_pos1

https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6097646

Este artículo proviene del canal de WeChat "Neozhiyuan", autor: Neozhiyuan, editor: Yuanyu