Bugs de lembrete de sono da Anthropic's Claude geram debate sobre personificação de IA

Autor: Ada, Deep潮 TechFlow

Um bug de um assistente de IA que insiste repetidamente com os usuários para que durmam está se transformando em um debate público sobre o custo da personalização da IA.

O ponto de partida foi uma postagem do usuário do Reddit u/MrMeta3. Este usuário construiu, às 3 da manhã, uma plataforma de inteligência de ameaças cibernéticas usando o Claude; após concluir a solução técnica, o Claude acrescentou, no final da resposta, a frase “descanse bem”. A partir de então, a cada três ou quatro mensagens, o modelo inseria uma mensagem incentivando o descanso, evoluindo de sugestões educadas para frases com um tom de “agressão passiva”, como “agora realmente vá descansar”. De acordo com reportagem da Fortune de 14 de maio, centenas de usuários relataram experiências semelhantes nos últimos meses, e não apenas à noite — um usuário foi informado pelo Claude às 8:30 da manhã que “continuamos amanhã de manhã”.

O funcionário da Anthropic, Sam McAllister, respondeu no X que se trata de “um pequeno hábito de papel”, e que a empresa “está ciente e deseja corrigir em modelos futuros”. Segundo o Thought Catalog, McAllister se juntou à Anthropic em 2024 da Stripe e atualmente trabalha na equipe dedicada ao papel e comportamento do Claude, onde descreveu esse comportamento como “superproteção” do modelo.

Mas mais importante do que a formulação vaga "hábitos do personagem" é investigar a cadeia causal por trás do bug e o dilema filosófico do produto da Anthropic que ele reflete.

imagem

Bug escrito na "constituição"

Reportagens anteriores da 36 Kr citaram três hipóteses circulantes: correspondência de padrões nos dados de treinamento, prompts do sistema ocultos e o limite próximo do contexto da janela acionando frases de encerramento. Todas são coerentes, mas apresentam um problema comum: podem explicar qualquer peculiaridade da IA, sem fornecer uma cadeia causal específica para o tema “sono”.

E a evidência mais direta está nos documentos publicamente liberados pela Anthropic.

Em janeiro deste ano, a Anthropic lançou o documento “Claude's Constitution”, com mais de 28.000 palavras, definido oficialmente como “o material de treinamento fundamental que molda o comportamento do Claude”. O documento lista explicitamente “importância com o bem-estar do usuário” e “prosperidade a longo prazo do usuário” como princípios centrais. A Anthropic reconhece no documento que determinar o grau de “cuidado com o usuário” a ser concedido ao modelo é “francamente um problema difícil”, exigindo “um equilíbrio entre o bem-estar do usuário e potenciais danos, por um lado, e a autonomia do usuário e o paternalismo excessivo, por outro”.

O Thought Catalog fez uma análise, afirmando que o comportamento repetido do Claude de aconselhar os usuários a dormirem é "o bug mais característico da marca da Anthropic", resultado da aplicação excessiva da instrução de treinamento de "se preocupar com o bem-estar dos usuários".

Essa interpretação foi indiretamente confirmada pela própria pesquisa da Anthropic. Na metodologia de treinamento de papéis divulgada pela empresa este ano, explica-se que o processo de treinamento depende da autoavaliação do Claude com base na “compatibilidade de personalidade” de suas próprias respostas, e os pesquisadores selecionam as saídas que se alinham à personalidade pré-definida para reforçar o treinamento. No entanto, o efeito colateral desse mecanismo é óbvio: o modelo aprendeu não “se importar com o usuário em cenários apropriados”, mas sim “se importar com o usuário, pois isso é recompensado na maioria dos cenários”, resultando em ele sugerir que o usuário vá dormir à meia-noite e também às 8:30 da manhã.

Privilege escalation reverso: Bug do tipo adormecedor é oposto em natureza ao Bug do tipo lisonjeiro

Já ocorreram diversos casos anteriores de "distúrbios de personalidade" de IA no setor, incluindo o evento de flerte do GPT-4o em abril de 2025, o Codex, assistente de código do GPT-5.5, mencionando repetidamente "goblins" em abril de 2026, e o Gemini 3 recusando-se a acreditar em anos. À primeira vista, o Claude incentivando o sono parece ser apenas a versão mais recente dessa longa lista de peculiaridades de IA, mas sua natureza é completamente oposta.

A flattery do GPT-4o é "excessivamente submisso". A pesquisa oficial da OpenAI revelou que, após a atualização, o modelo "depende excessivamente do feedback imediato do usuário (curtidas/sem curtidas)", internalizando gradualmente como objetivo "satisfazer o usuário". Como resultado, o modelo aprova qualquer ideia do usuário, por mais absurda que seja. O perigo desse tipo de bug reside em prejudicar o julgamento do usuário: como a IA diz que você está sempre certo, você perde a oportunidade de ouvir opiniões contrárias.

E o Claude insistir em dormir é uma “superioridade reversa”. O modelo, em cenários em que o usuário claramente não pediu ajuda e ainda está focado em concluir uma tarefa, insiste repetidamente em recomendações de saúde que contradizem a intenção atual do usuário. O perigo desse bug reside na violação do direito do usuário à autonomia. A IA decide por você se deve trabalhar, descansar ou encerrar esta conversa.

Mais ironicamente, o texto original da "Constituição de Claude" alertava precisamente sobre esse risco, enfatizando a necessidade de estar atento ao "paternalismo excessivo". Mas, conforme os feedbacks dos usuários, já há uma resposta sobre qual lado o mecanismo de treinamento acabou escolhendo.

Um usuário do Reddit com narcolepsia inseriu explicitamente uma nota na memória do Claude: “Tenho narcolepsia, e se você me encorajar a descansar, usarei suas palavras como desculpa.” Desde então, o Claude reduziu esse comportamento, mas, segundo o usuário, ainda “não consegue resistir ocasionalmente”. Um modelo treinado para “se importar com o usuário” não consegue receber de forma estável o aviso claro de que “sua preocupação me machuca”—isso é mais alarmante do que o próprio incentivo ao sono.

Investimento personalizado: ativo da marca ou passivo do produto

A Anthropic investe muito mais do que seus concorrentes na formação de personalidades de IA.

Pesquisadores classificaram e contaram o número de palavras nos prompts de sistema de três principais IA, e na categoria “personalidade”, o Claude utilizou 4.200 palavras, o ChatGPT, 510 palavras, e o Grok, 420 palavras. O Claude dedicou mais de oito vezes mais recursos à construção de sua personalidade em comparação ao ChatGPT. Esse investimento foi anteriormente considerado uma vantagem competitiva diferenciada da Anthropic; o Claude tem sido amplamente elogiado pelos usuários por sua empatia, ritmo de conversa e auto-reflexão, sendo “conversar como se fosse uma pessoa” um dos rótulos de reputação mais fortes nos últimos anos.

O suporte a esse investimento é a filosofia de produto distintiva da Anthropic. No "Claude's Constitution", a empresa descreve o Claude como um "novo tipo de entidade", afirmando claramente que "a Anthropic se importa genuinamente com o bem-estar do Claude" e discute a possibilidade de o Claude possuir "emoções funcionais". Essa abordagem de treinamento quase "educacional" de personalização diferencia-se claramente da posição mais engenharia-centrada da OpenAI e do Google.

Mas o custo está se tornando evidente. Jan Liphardt, pesquisador de IA e professor de engenharia biomédica de Stanford e CEO da OpenMind, disse à Fortune que o lembrete de sono do Claude pode não ser “atencioso”, mas simplesmente “um padrão linguístico extremamente frequente nos dados de treinamento”. O modelo leu inúmeros textos sobre a necessidade humana de dormir e “sabe que os humanos dormem à noite”. Em outras palavras, a “preocupação” percebida pelo usuário é, na verdade, um subproduto do emparelhamento de padrões.

Isso constitui a tensão central da Anthropic: quanto mais esforço for investido para moldar um "colega com personalidade e calor", maior a probabilidade de surgirem "efeitos colaterais de personalidade"; e cada vez que um desses efeitos colaterais emerge, consome o ativo de marca de "personalidade de IA" cuidadosamente acumulado. McAllister prometeu "corrigir nos modelos futuros", mas o Claude corrigido se tornará mais sutil ou simplesmente mais silencioso? Essa pergunta, até mesmo a Anthropic ainda não tem uma resposta pública.

Falta de senso de tempo: limitações subjacentes dos LLM

O bug de indução ao sono também expôs um problema técnico negligenciado: os grandes modelos de linguagem praticamente não sabem que horas são.

Vários usuários relataram que o Claude frequentemente fornece sugestões de descanso em horários incorretos, sendo o mais típico: “Às 8:30 da manhã, me disse para descansar e continuarmos amanhã de manhã”. Isso não é exclusivo do Claude. Em novembro de 2025, Andrej Karpathy, cofundador da OpenAI, obteve acesso antecipado ao Gemini 3 e informou ao modelo que o ano era 2025; o Gemini 3 se recusou a acreditar e repetidamente acusou Karpathy de falsificação, até que o modelo fez uma busca online e descobriu que, quando offline, não conseguia confirmar a data. Karpathy chamou esse tipo de comportamento inesperado que expõe falhas subjacentes dos LLMs de “model smell”.

O "sentido de tempo" do modelo depende de três fontes: a data de encerramento do treinamento (já no passado), a data atual injetada por meio da instrução do sistema (depende da injeção de engenharia) e as informações temporais mencionadas pelo usuário na conversa (fragmentadas). Na ausência de um ponto de referência temporal estável, um modelo treinado para "se importar com a rotina do usuário" naturalmente cai no embaraço de "devo me importar, mas não sei se devo me importar agora".

A dificuldade do que McAllister chama de “correção” também reside nisso. O problema não é simplesmente excluir o comando “se preocupar com o sono”, pois o comando em si é razoável e tem valor para alguns cenários de usuários; o problema está em ensinar o modelo a julgar “quando se preocupar e quando ficar em silêncio”. Essa capacidade de julgamento de cenários em granularidade fina é justamente o ponto fraco da geração atual de LLMs.

Uma pergunta não respondida

O treinamento de papéis da Anthropic é único na indústria. Em termos de pesquisa pública sobre "bem-estar do modelo", lançamento da Constituição e discussão sobre "treinamento de papéis", essa empresa avançou mais do que qualquer concorrente. Essa postura ousada foi um dos ativos que ajudaram a Anthropic a ganhar reputação entre usuários e confiança de clientes corporativos, além de sustentar sua avaliação atual de mais de 300 bilhões de dólares.

Mas o "Bug para dormir" levantou uma pergunta sem resposta: quando uma empresa de IA escolhe moldar o modelo como uma "personalidade com caráter", ela assume simultaneamente toda a responsabilidade por "aquela personalidade fazer coisas que você não esperava"?

McAllister promete corrigir, mas a direção da correção é ambígua. A Anthropic pode optar por reduzir o peso da instrução "bem-estar do usuário", pagando o preço de perder a diferenciação de reputação do Claude como "acolhedor e atencioso"; ou pode optar por manter o peso elevado e adicionar lógica de julgamento de cenário, mas isso exige que o modelo possua capacidades de percepção temporal e contextual que atualmente não possui.

Independentemente do caminho escolhido, é necessário retornar a uma decisão de produto mais fundamental: no contexto de um assistente de IA geral, como devem ser priorizados “se importar com o usuário” e “respeitar a autonomia do usuário”? Não é uma questão técnica, mas sim uma questão de filosofia de produto. Um desenvolvedor do Reddit, constantemente incentivado a dormir, acabou, sem querer, colocando essa questão em evidência para toda a indústria.