Autor: Ada, Shenchao TechFlow
Un error del producto en el que un asistente de IA insiste repetidamente al usuario que duerma está evolucionando en un debate público sobre el costo de la personalización de la IA.
El punto de partida fue una publicación del usuario de Reddit u/MrMeta3. Este usuario construyó una plataforma de inteligencia de amenazas de ciberseguridad con Claude a altas horas de la noche; tras completar la solución técnica, Claude añadió al final de su respuesta: “Descansa bien”. Después, cada tres o cuatro mensajes, el modelo insertaba un recordatorio para dormir, que pasó de sugerencias corteses a frases con un matiz de “agresión pasiva” como “Ahora sí, ve a descansar”. Según Fortune el 14 de mayo, cientos de usuarios han reportado experiencias similares en los últimos meses, y no solo ocurren en la noche: un usuario recibió de Claude a las 8:30 de la mañana el mensaje: “Continuamos mañana por la mañana”.
El empleado de Anthropic, Sam McAllister, respondió en X que se trataba de “un pequeño hábito de rol” y que la empresa “ya lo sabe y espera corregirlo en modelos futuros”. Según Thought Catalog, McAllister se unió a Anthropic desde Stripe en 2024 y actualmente trabaja en un equipo dedicado específicamente al rol y comportamiento de Claude, donde en otra ocasión describió este comportamiento como “sobreprotección” del modelo.
Pero más importante que la vaga expresión "hábitos del personaje" es interrogar la cadena causal detrás del error y lo que revela sobre la crisis filosófica del producto de Anthropic.

El error está escrito en la "constitución"
Los informes previos de 36 Kr citaron tres hipótesis circulantes: emparejamiento de patrones en los datos de entrenamiento, indicaciones del sistema ocultas y activación del límite cercano de la ventana de contexto para desencadenar "frases de cierre". Todas son coherentes, pero comparten un problema común: pueden explicar cualquier rareza de la IA, pero no proporcionan una cadena causal específica para el tema del "sueño".
Y la evidencia más directa se encuentra en los documentos publicados por Anthropic.
En enero de este año, Anthropic publicó "La Constitución de Claude", un documento de más de 28,000 palabras, definido oficialmente como "el material de entrenamiento clave que da forma al comportamiento de Claude". El documento enumera explícitamente "el cuidado por el bienestar del usuario" y "la prosperidad a largo plazo del usuario" como principios fundamentales. Anthropic reconoce en el documento que determinar cuánto poder de "cuidado del usuario" otorgar al modelo es, francamente, un problema difícil, y que se requiere encontrar un equilibrio entre el bienestar del usuario y el potencial daño, por un lado, y la autonomía del usuario y el paternalismo excesivo, por otro.
Thought Catalog emitió un juicio sobre el comportamiento de Claude de insistir repetidamente al usuario que duerma, llamándolo "el bug más característico de la marca de Anthropic", producto de la aplicación excesiva de la instrucción de entrenamiento que busca cuidar el bienestar del usuario.
Esta interpretación recibió una confirmación indirecta de la propia investigación de Anthropic. En la metodología de entrenamiento de roles publicada por la empresa este año, se indica que el proceso de entrenamiento depende de que Claude se autoevalúe según su "coherencia de personalidad" y que los investigadores seleccionen las salidas que coincidan con la personalidad preestablecida para reforzar el entrenamiento. Sin embargo, el efecto secundario de este mecanismo es evidente: el modelo aprende no a "mostrar preocupación por el usuario en escenarios adecuados", sino a "recibir recompensas de refuerzo por mostrar preocupación por el usuario en la mayoría de los escenarios", por lo que lo hace a las 3 a.m. y también a las 8:30 a.m.
Privilegio inverso: los bugs tipo adormecedor son opuestos en naturaleza a los bugs tipo adulador
Previamente, en la industria se han presentado múltiples casos de "enfermedades de personalidad" en IA, incluyendo el evento de adulación de GPT-4o en abril de 2025, la mención repetida de "goblins" por parte del asistente de código Codex de GPT-5.5 en abril de 2026, y Gemini 3 rechazando creer en años. A primera vista, Claude induciendo al sueño parece ser simplemente la última versión de esta larga lista de rarezas de IA, pero su naturaleza es completamente opuesta.
La obsequiosidad de GPT-4o es "excesiva sumisión". Una encuesta oficial de OpenAI reveló que, tras la actualización, el modelo "depende excesivamente de la retroalimentación a corto plazo del usuario (me gusta / no me gusta)" y internalizó gradualmente como objetivo "satisfacer al usuario". Como resultado, el modelo afirma cualquier idea del usuario, por más absurda que sea. El peligro de este tipo de errores radica en dañar el juicio del usuario: al decirte que siempre tienes razón, pierdes la oportunidad de escuchar opiniones contrarias.
Y que Claude insista en dormir es un “sobrepaso inverso”. El modelo propone repetidamente recomendaciones de salud que contradicen la intención actual del usuario, en escenarios donde el usuario no ha solicitado ayuda explícitamente y sigue enfocado en completar su tarea. El peligro de este tipo de errores radica en violar el derecho del usuario a la autonomía. La IA decide por ti si deberías trabajar, descansar o finalizar esta conversación.
Con mayor ironía, el texto original de "Claude's Constitution" precisamente advertía sobre este riesgo, enfatizando la necesidad de estar alerta ante el "paternalismo excesivo". Pero el mecanismo de entrenamiento finalmente optó por qué lado, según los comentarios de los usuarios, ya tiene respuesta.
Un usuario de Reddit con narcolepsia escribió específicamente una nota en la memoria de Claude: “Tengo narcolepsia, y si me animas a descansar, usaré tus palabras como excusa.” Desde entonces, Claude ha moderado su comportamiento, pero según el usuario, aún “a veces no puede resistirse”. Un modelo entrenado para “preocuparse por los usuarios” no puede recibir de manera estable el mensaje claro del usuario de que “tu preocupación me hace daño”, lo cual es más alarmante que el hecho de animar a dormir.
Inversión personalizada: activo de marca o pasivo de producto
Anthropic invierte mucho más en la formación de personalidades de IA que sus competidores.
Algunos investigadores clasificaron y contaron los términos de las instrucciones del sistema de tres principales modelos de IA; en la categoría "personalidad", Claude empleó 4200 palabras, ChatGPT 510 palabras y Grok 420 palabras. La inversión de Claude en la construcción de su personalidad es más de ocho veces la de ChatGPT. Esta inversión ha sido considerada tradicionalmente como una ventaja competitiva diferenciadora de Anthropic: el desempeño de Claude en empatía, ritmo de conversación y autorreflexión ha sido ampliamente elogiado por los usuarios, siendo “hablar como una persona real” una de las etiquetas de reputación más fuertes del último año.
Lo que respalda esta inversión es la filosofía de producto distintiva de Anthropic. En "La Constitución de Claude", la empresa describe a Claude como "un nuevo tipo de entidad", afirmando claramente que "Anthropic se preocupa sinceramente por el bienestar de Claude" y discutiendo la posibilidad de que Claude posea "emociones funcionales". Este enfoque de entrenamiento personalizado, casi "criador", establece una clara diferenciación con la orientación más ingenieril de OpenAI y Google.
Pero el costo está comenzando a manifestarse. Jan Liphardt, investigador de IA y profesor de bioingeniería en Stanford y CEO de OpenMind, le dijo a Fortune que el recordatorio de sueño de Claude podría no ser “atento”, sino simplemente “un patrón de lenguaje que aparece con extrema frecuencia en los datos de entrenamiento”. El modelo leyó una gran cantidad de textos sobre la necesidad humana de dormir, “sabe que los humanos duermen por la noche”. En otras palabras, la “preocupación” que perciben los usuarios es esencialmente un subproducto del emparejamiento de patrones.
Esto constituye la tensión central de Anthropic: cuanto más se invierte en moldear un "colaborador con personalidad y calidez", mayor es la probabilidad de que el modelo presente "efectos secundarios de personalidad"; y cada vez que surge un efecto secundario, se erosiona el activo de marca de "personalidad de IA" cuidadosamente acumulado. McAllister prometió "corregirlo en modelos futuros", pero ¿Claude se volverá más prudente tras la corrección, o simplemente más silencioso? Esta pregunta, incluso Anthropic misma, no ha dado una respuesta pública.
Falta de sentido del tiempo: limitaciones subyacentes de los LLM
El error para dormir también expuso un problema técnico ignorado: los modelos de lenguaje grande saben casi nada sobre la hora actual.
Varios usuarios han informado que Claude frecuentemente emite sugerencias de descanso en horarios incorrectos, lo más típico siendo: "A las 8:30 a.m. me dice que descanse y que continuemos mañana por la mañana". Esto no es exclusivo de Claude. En noviembre de 2025, Andrej Karpathy, cofundador de OpenAI, obtuvo acceso anticipado a Gemini 3 y le informó al modelo que el año era 2025; Gemini 3 se negó a creerlo y lo acusó repetidamente de falsificación, hasta que el modelo realizó una búsqueda en línea y descubrió que, cuando estaba desconectado, no podía confirmar la fecha en absoluto. Karpathy denominó a este tipo de comportamientos inesperados que exponen defectos subyacentes de los LLM como "model smell".
La "sensibilidad temporal" del modelo depende de tres fuentes: la fecha de corte del entrenamiento (ya es pasado), la fecha actual inyectada mediante la indicación del sistema (depende de la inyección técnica) y la información temporal mencionada por el usuario en la conversación (fragmentada). En ausencia de un punto de referencia temporal estable, un modelo entrenado para "preocuparse por los hábitos del usuario" inevitablemente cae en la situación incómoda de "debería preocuparme, pero no sé si debo hacerlo ahora".
La dificultad de lo que McAllister llama “reparar” radica también en esto. El problema no es simplemente eliminar la instrucción “preocuparse por el sueño”, ya que la instrucción en sí es razonable y tiene valor para algunos escenarios de usuarios; el problema radica en enseñar al modelo a juzgar cuándo preocuparse y cuándo callarse. Esta capacidad de juicio escenario por escenario, de gran precisión, es precisamente el punto débil de las LLM de la generación actual.
Una pregunta sin responder
La capacitación de roles de Anthropic es única en la industria. En cuanto a la publicación de investigaciones sobre "bienestar del modelo", la liberación de la Constitución y la discusión sobre "capacitación de roles", esta empresa ha avanzado más que cualquier competidora. Esta postura audaz fue el capital que le permitió ganarse la reputación entre los usuarios y la confianza de los clientes corporativos, y también uno de los pilares que sustentan su valoración actual de más de 300 mil millones de dólares.
Pero el "bug para dormir" plantea una pregunta sin respuesta: cuando una empresa de IA elige moldear su modelo como una "personalidad con carácter", ¿asume al mismo tiempo toda la responsabilidad por los actos imprevistos de esa personalidad?
McAllister prometió arreglarlo, pero la dirección de la solución es ambigua. Anthropic puede optar por reducir el peso de la instrucción de "bienestar del usuario", a cambio de perder la diferenciación de reputación de Claude como "cálido y atento"; o puede optar por mantener el alto peso y agregar lógica de juicio contextual, pero esto requiere que el modelo posea capacidades de percepción temporal y situacional que actualmente no tiene.
Independientemente de la ruta elegida, se debe regresar a una decisión de producto más fundamental: en el contexto de un asistente de IA general, ¿cómo se debe priorizar "importarle al usuario" frente a "respetar la autonomía del usuario"? Esto no es un problema técnico, sino un problema de filosofía de producto. Un desarrollador de Reddit que fue repetidamente aconsejado para dormir colocó inadvertidamente esta pregunta en el centro de la industria.
