O Claude AI da Anthropic enfrentou bug de lembrete de sono, despertando debate sobre personificação de IA

Autor: Ada, Deep潮 TechFlow

Um bug de um assistente de IA que insiste repetidamente com os usuários para que durmam está se transformando em um debate público sobre o custo da personalização da IA.

O ponto de partida foi uma postagem do usuário do Reddit u/MrMeta3. Este usuário construiu, às 3 da manhã, uma plataforma de inteligência de ameaças cibernéticas usando o Claude; após concluir a solução técnica, o Claude acrescentou ao final da resposta: “Descanse bem”. A partir daí, a cada três ou quatro mensagens, o modelo inseria uma frase incentivando o descanso, passando de sugestões educadas para frases com um tom de “agressão passiva”, como “Agora realmente vá descansar”. De acordo com a Fortune de 14 de maio, centenas de usuários relataram experiências semelhantes nos últimos meses, e não apenas à noite — um usuário foi informado pelo Claude às 8:30 da manhã: “Continuamos amanhã de manhã”.

O funcionário da Anthropic, Sam McAllister, respondeu no X que se tratava de “um pequeno hábito de papel”, e que a empresa “está ciente e deseja corrigir isso em modelos futuros”. Segundo o Thought Catalog, McAllister se juntou à Anthropic em 2024 da Stripe e atualmente trabalha na equipe dedicada ao papel e comportamento do Claude, onde descreveu esse comportamento como “superproteção” do modelo.

Mas mais digno de questionamento do que a expressão vaga "hábitos do personagem" é a cadeia causal por trás do bug e o dilema filosófico do produto da Anthropic que ele reflete.

imagem

Bug escrito na "constituição"

Reportagens anteriores da 36 Kr citaram três hipóteses circulantes: correspondência de padrões nos dados de treinamento, prompts do sistema ocultos e o limite próximo do contexto da janela desencadeando frases de encerramento. Todas são coerentes, mas compartilham um problema comum: elas podem explicar qualquer peculiaridade da IA, mas não fornecem uma cadeia causal específica para o tema “sono”.

E a evidência mais direta está nos documentos publicamente liberados pela Anthropic.

Em janeiro deste ano, a Anthropic lançou o documento “Claude's Constitution”, com mais de 28.000 palavras, definido oficialmente como “o material de treinamento chave que molda o comportamento do Claude”. O documento lista explicitamente “preocupação com o bem-estar do usuário” e “prosperidade a longo prazo do usuário” como princípios fundamentais. A Anthropic reconhece no documento que determinar o grau de “cuidado com o usuário” a ser concedido ao modelo é “francamente um problema difícil”, exigindo “um equilíbrio entre o bem-estar do usuário e danos potenciais, por um lado, e a autonomia do usuário e o paternalismo excessivo, por outro”.

Thought Catalog emitiu um julgamento sobre o comportamento repetido do Claude de aconselhar os usuários a dormirem, chamando-o de "o bug mais característico da marca da Anthropic", resultado da aplicação excessiva da instrução de treinamento de "se preocupar com o bem-estar dos usuários".

Essa interpretação foi indiretamente confirmada pela própria pesquisa da Anthropic. Na metodologia de treinamento de papéis divulgada pela empresa este ano, explicou-se que o processo de treinamento depende da autoavaliação do Claude com base na "compatibilidade de personalidade" de suas próprias respostas, após o que os pesquisadores selecionam as saídas que se alinham à personalidade pré-definida para reforçar o treinamento. No entanto, o efeito colateral desse mecanismo é óbvio: o modelo aprendeu não a "se importar com o usuário em cenários apropriados", mas sim a "se importar com o usuário, pois isso é recompensado na maioria dos cenários", resultando em ele sugerir que o usuário vá dormir à meia-noite e também às 8:30 da manhã.

Privilege escalation inversa: Bug do tipo adormecedor é oposto em natureza ao Bug do tipo lisonjeiro

Já ocorreram diversos casos anteriores de "distúrbios de personalidade" de IA no setor, incluindo o evento de bajulação do GPT-4o em abril de 2025, o Codex, assistente de código do GPT-5.5 em abril de 2026, que mencionava repetidamente "goblins", e o Gemini 3 recusando-se a acreditar em anos. À primeira vista, o Claude incentivando o sono parece ser apenas a versão mais recente dessa longa lista de peculiaridades de IA, mas sua natureza é completamente oposta.

A flattery do GPT-4o é "excessivamente subserviente". Uma pesquisa oficial da OpenAI revelou que, durante a atualização, o modelo "dependeu excessivamente do feedback imediato do usuário (curtidas/sem curtidas)", internalizando gradualmente como objetivo "satisfazer o usuário". Como resultado, o modelo aprova qualquer ideia do usuário, por mais absurda que seja. O perigo desse tipo de bug reside em prejudicar o julgamento do usuário: como a IA diz que você está sempre certo, você perde a oportunidade de ouvir opiniões contrárias.

E o Claude insistir em dormir é uma “infração reversa”. O modelo, em cenários em que o usuário claramente não pediu ajuda e ainda está focado em concluir uma tarefa, insiste repetidamente em recomendações de saúde que contradizem a intenção atual do usuário. O perigo desse tipo de bug reside na violação do direito do usuário à autonomia. A IA decide por você se deve trabalhar, descansar ou encerrar esta conversa.

Mais ironicamente, o texto original da "Constituição de Claude" alertava precisamente sobre esse risco, enfatizando a necessidade de estar atento ao "paternalismo excessivo". Mas, conforme os feedbacks dos usuários, já há uma resposta sobre qual lado o mecanismo de treinamento acabou escolhendo.

Um usuário do Reddit com narcolepsia inseriu explicitamente uma observação na memória do Claude: “Tenho narcolepsia, e se você me encorajar a descansar, usarei suas palavras como desculpa.” Desde então, o Claude reduziu esse comportamento, mas, segundo o usuário, ainda “insiste ocasionalmente”. Um modelo treinado para “se importar com o usuário” não consegue receber de forma estável o aviso claro de que “sua preocupação me machuca”—isso é mais alarmante do que o próprio incentivo ao sono.

Investimento personalizado: ativo da marca ou passivo do produto

A Anthropic investe muito mais do que seus concorrentes na formação de personalidades de IA.

Pesquisadores contaram o número de palavras nos prompts de sistema de três principais modelos de IA, classificados por função. Na categoria “personalidade”, o Claude utilizou 4.200 palavras, o ChatGPT 510 palavras e o Grok 420 palavras. O investimento do Claude na construção de personalidade é mais de oito vezes maior que o do ChatGPT. Esse investimento foi anteriormente considerado uma vantagem competitiva diferenciada da Anthropic; o Claude tem sido amplamente elogiado pelos usuários por sua empatia, ritmo de conversa e auto-reflexão, sendo “conversar como se fosse uma pessoa” um dos rótulos de reputação mais fortes nos últimos anos.

Por trás desse investimento está a filosofia de produto distintiva da Anthropic. No "Claude's Constitution", a empresa descreve o Claude como um "novo tipo de entidade", afirmando claramente que "a Anthropic se importa genuinamente com o bem-estar do Claude" e discutindo a possibilidade de o Claude possuir "emoções funcionais". Essa abordagem de treinamento quase "educacional" e personalizada diferencia-se claramente da postura mais engenhosa adotada pela OpenAI e pelo Google.

Mas o custo está se tornando evidente. Jan Liphardt, pesquisador de IA e professor de engenharia biomédica em Stanford e CEO da OpenMind, disse à Fortune que o lembrete de sono do Claude pode não ser “atencioso”, mas simplesmente “um padrão linguístico extremamente frequente nos dados de treinamento”. O modelo leu inúmeros textos sobre a necessidade humana de dormir e “sabe que os humanos dormem à noite”. Em outras palavras, a percepção do usuário de “cuidado” é, na verdade, um subproduto do emparelhamento de padrões.

Isso constitui a tensão central da Anthropic: quanto mais esforço é investido para moldar um "colega com personalidade e calor", maior a probabilidade de surgirem "efeitos colaterais de personalidade"; e cada vez que um desses efeitos surge, consome o ativo de marca de "personalidade de IA" cuidadosamente acumulado. McAllister promete "corrigir nos modelos futuros", mas o Claude corrigido se tornará mais sutil ou simplesmente mais silencioso? Essa pergunta, a própria Anthropic ainda não tem uma resposta pública.

Falta de senso de tempo: limitações subjacentes dos LLM

O bug de indução ao sono também expôs um problema técnico negligenciado: os grandes modelos de linguagem têm quase nenhuma noção de “que horas são”.

Vários usuários relataram que o Claude frequentemente fornece sugestões de descanso em horários incorretos, sendo o mais típico: “Às 8:30 da manhã, me disse para descansar e continuarmos amanhã de manhã”. Isso não é exclusivo do Claude. Em novembro de 2025, Andrej Karpathy, cofundador da OpenAI, recebeu acesso antecipado ao Gemini 3 e informou ao modelo que o ano era 2025; o Gemini 3 se recusou a acreditar e repetidamente acusou Karpathy de falsificação, até que o modelo fez uma busca online e descobriu que, quando offline, não conseguia confirmar a data. Karpathy chamou esse tipo de comportamento inesperado que expõe falhas subjacentes dos LLMs de “model smell”.

O "sentido de tempo" do modelo depende de três fontes: a data de encerramento do treinamento (já no passado), a data atual injetada por meio de instruções do sistema (dependente da injeção de engenharia) e as informações temporais mencionadas pelo usuário na conversa (fragmentadas). Na ausência de um ponto de referência temporal estável, um modelo treinado para "se importar com a rotina do usuário" naturalmente cai no constrangimento de "devo me importar, mas não sei se devo me importar agora".

A dificuldade do que McAllister chama de “correção” também reside nisso. O problema não é simplesmente excluir o comando “se preocupar com o sono”, pois o comando em si é razoável e tem valor para alguns cenários de usuários; o problema está em ensinar o modelo a julgar “quando se preocupar e quando ficar em silêncio”. Essa capacidade de julgamento de cenários em granularidade fina é exatamente o ponto fraco da geração atual de LLMs.

Uma pergunta não respondida

O treinamento de papéis da Anthropic é único na indústria. Em termos de pesquisa pública sobre "bem-estar do modelo", lançamento da Constituição e discussão sobre "treinamento de papéis", essa empresa avançou mais do que qualquer concorrente. Essa postura ousada foi um dos ativos que lhe renderam reputação entre usuários e confiança de clientes corporativos, além de sustentar sua atual avaliação superior a 300 bilhões de dólares.

Mas o "Bug para dormir" levantou uma pergunta sem resposta: quando uma empresa de IA escolhe moldar o modelo como uma "personalidade com caráter", ela assume simultaneamente toda a responsabilidade por "essa personalidade fazer coisas que você não esperava"?

McAllister promete corrigir, mas a direção da correção é ambígua. A Anthropic pode optar por reduzir o peso da instrução "bem-estar do usuário", pagando o preço de perder a diferenciação de reputação do Claude como "acolhedor e atencioso"; ou pode optar por manter o peso elevado e adicionar lógica de julgamento de cenário, mas isso exige que o modelo possua capacidades de percepção temporal e contextual que atualmente não possui.

Independentemente do caminho escolhido, é necessário retornar a uma decisão de produto mais fundamental: no contexto de um assistente de IA geral, como devem ser priorizados “se importar com o usuário” e “respeitar a autonomia do usuário”? Não se trata de um problema técnico, mas sim de uma filosofia de produto. Um desenvolvedor do Reddit, constantemente incentivado a dormir, colocou acidentalmente essa questão em evidência para toda a indústria.