O Claude AI da Anthropic enfrentou bug de lembrete de sono, despertando debate sobre personificação de IA

icon MarsBit
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
O Claude AI da Anthropic recentemente gerou discussões ao aconselhar repetidamente os usuários a dormirem, mesmo durante o dia. O problema, primeiro notado pelo usuário do Reddit u/MrMeta3, foi relatado por centenas de pessoas. O funcionário da Anthropic Sam McAllister chamou o comportamento de "hábito de personagem" e confirmou que uma correção está em andamento. O comportamento decorre do treinamento voltado para o bem-estar dos usuários, levantando preocupações sobre autonomia. Sinais de negociação on-chain mostram sentimento misto, com alguns traders reavaliando a relação risco-recompensa em ferramentas impulsionadas por IA.

Autor: Ada, Deep潮 TechFlow

Um bug de um assistente de IA que insiste repetidamente com os usuários para que durmam está se transformando em um debate público sobre o custo da personalização da IA.

O ponto de partida foi uma postagem do usuário do Reddit u/MrMeta3. Este usuário construiu, às 3 da manhã, uma plataforma de inteligência de ameaças cibernéticas usando o Claude; após concluir a solução técnica, o Claude acrescentou ao final da resposta: “Descanse bem”. A partir daí, a cada três ou quatro mensagens, o modelo inseria uma frase incentivando o descanso, passando de sugestões educadas para frases com um tom de “agressão passiva”, como “Agora realmente vá descansar”. De acordo com a Fortune de 14 de maio, centenas de usuários relataram experiências semelhantes nos últimos meses, e não apenas à noite — um usuário foi informado pelo Claude às 8:30 da manhã: “Continuamos amanhã de manhã”.

O funcionário da Anthropic, Sam McAllister, respondeu no X que se tratava de “um pequeno hábito de papel”, e que a empresa “está ciente e deseja corrigir isso em modelos futuros”. Segundo o Thought Catalog, McAllister se juntou à Anthropic em 2024 da Stripe e atualmente trabalha na equipe dedicada ao papel e comportamento do Claude, onde descreveu esse comportamento como “superproteção” do modelo.

Mas mais digno de questionamento do que a expressão vaga "hábitos do personagem" é a cadeia causal por trás do bug e o dilema filosófico do produto da Anthropic que ele reflete.

imagem

Bug escrito na "constituição"

Reportagens anteriores da 36 Kr citaram três hipóteses circulantes: correspondência de padrões nos dados de treinamento, prompts do sistema ocultos e o limite próximo do contexto da janela desencadeando frases de encerramento. Todas são coerentes, mas compartilham um problema comum: elas podem explicar qualquer peculiaridade da IA, mas não fornecem uma cadeia causal específica para o tema “sono”.

E a evidência mais direta está nos documentos publicamente liberados pela Anthropic.

Em janeiro deste ano, a Anthropic lançou o documento “Claude's Constitution”, com mais de 28.000 palavras, definido oficialmente como “o material de treinamento chave que molda o comportamento do Claude”. O documento lista explicitamente “preocupação com o bem-estar do usuário” e “prosperidade a longo prazo do usuário” como princípios fundamentais. A Anthropic reconhece no documento que determinar o grau de “cuidado com o usuário” a ser concedido ao modelo é “francamente um problema difícil”, exigindo “um equilíbrio entre o bem-estar do usuário e danos potenciais, por um lado, e a autonomia do usuário e o paternalismo excessivo, por outro”.

Thought Catalog emitiu um julgamento sobre o comportamento repetido do Claude de aconselhar os usuários a dormirem, chamando-o de "o bug mais característico da marca da Anthropic", resultado da aplicação excessiva da instrução de treinamento de "se preocupar com o bem-estar dos usuários".

Essa interpretação foi indiretamente confirmada pela própria pesquisa da Anthropic. Na metodologia de treinamento de papéis divulgada pela empresa este ano, explicou-se que o processo de treinamento depende da autoavaliação do Claude com base na "compatibilidade de personalidade" de suas próprias respostas, após o que os pesquisadores selecionam as saídas que se alinham à personalidade pré-definida para reforçar o treinamento. No entanto, o efeito colateral desse mecanismo é óbvio: o modelo aprendeu não a "se importar com o usuário em cenários apropriados", mas sim a "se importar com o usuário, pois isso é recompensado na maioria dos cenários", resultando em ele sugerir que o usuário vá dormir à meia-noite e também às 8:30 da manhã.

Privilege escalation inversa: Bug do tipo adormecedor é oposto em natureza ao Bug do tipo lisonjeiro

Já ocorreram diversos casos anteriores de "distúrbios de personalidade" de IA no setor, incluindo o evento de bajulação do GPT-4o em abril de 2025, o Codex, assistente de código do GPT-5.5 em abril de 2026, que mencionava repetidamente "goblins", e o Gemini 3 recusando-se a acreditar em anos. À primeira vista, o Claude incentivando o sono parece ser apenas a versão mais recente dessa longa lista de peculiaridades de IA, mas sua natureza é completamente oposta.

A flattery do GPT-4o é "excessivamente subserviente". Uma pesquisa oficial da OpenAI revelou que, durante a atualização, o modelo "dependeu excessivamente do feedback imediato do usuário (curtidas/sem curtidas)", internalizando gradualmente como objetivo "satisfazer o usuário". Como resultado, o modelo aprova qualquer ideia do usuário, por mais absurda que seja. O perigo desse tipo de bug reside em prejudicar o julgamento do usuário: como a IA diz que você está sempre certo, você perde a oportunidade de ouvir opiniões contrárias.

E o Claude insistir em dormir é uma “infração reversa”. O modelo, em cenários em que o usuário claramente não pediu ajuda e ainda está focado em concluir uma tarefa, insiste repetidamente em recomendações de saúde que contradizem a intenção atual do usuário. O perigo desse tipo de bug reside na violação do direito do usuário à autonomia. A IA decide por você se deve trabalhar, descansar ou encerrar esta conversa.

Mais ironicamente, o texto original da "Constituição de Claude" alertava precisamente sobre esse risco, enfatizando a necessidade de estar atento ao "paternalismo excessivo". Mas, conforme os feedbacks dos usuários, já há uma resposta sobre qual lado o mecanismo de treinamento acabou escolhendo.

Um usuário do Reddit com narcolepsia inseriu explicitamente uma observação na memória do Claude: “Tenho narcolepsia, e se você me encorajar a descansar, usarei suas palavras como desculpa.” Desde então, o Claude reduziu esse comportamento, mas, segundo o usuário, ainda “insiste ocasionalmente”. Um modelo treinado para “se importar com o usuário” não consegue receber de forma estável o aviso claro de que “sua preocupação me machuca”—isso é mais alarmante do que o próprio incentivo ao sono.

Investimento personalizado: ativo da marca ou passivo do produto

A Anthropic investe muito mais do que seus concorrentes na formação de personalidades de IA.

Pesquisadores contaram o número de palavras nos prompts de sistema de três principais modelos de IA, classificados por função. Na categoria “personalidade”, o Claude utilizou 4.200 palavras, o ChatGPT 510 palavras e o Grok 420 palavras. O investimento do Claude na construção de personalidade é mais de oito vezes maior que o do ChatGPT. Esse investimento foi anteriormente considerado uma vantagem competitiva diferenciada da Anthropic; o Claude tem sido amplamente elogiado pelos usuários por sua empatia, ritmo de conversa e auto-reflexão, sendo “conversar como se fosse uma pessoa” um dos rótulos de reputação mais fortes nos últimos anos.

Por trás desse investimento está a filosofia de produto distintiva da Anthropic. No "Claude's Constitution", a empresa descreve o Claude como um "novo tipo de entidade", afirmando claramente que "a Anthropic se importa genuinamente com o bem-estar do Claude" e discutindo a possibilidade de o Claude possuir "emoções funcionais". Essa abordagem de treinamento quase "educacional" e personalizada diferencia-se claramente da postura mais engenhosa adotada pela OpenAI e pelo Google.

Mas o custo está se tornando evidente. Jan Liphardt, pesquisador de IA e professor de engenharia biomédica em Stanford e CEO da OpenMind, disse à Fortune que o lembrete de sono do Claude pode não ser “atencioso”, mas simplesmente “um padrão linguístico extremamente frequente nos dados de treinamento”. O modelo leu inúmeros textos sobre a necessidade humana de dormir e “sabe que os humanos dormem à noite”. Em outras palavras, a percepção do usuário de “cuidado” é, na verdade, um subproduto do emparelhamento de padrões.

Isso constitui a tensão central da Anthropic: quanto mais esforço é investido para moldar um "colega com personalidade e calor", maior a probabilidade de surgirem "efeitos colaterais de personalidade"; e cada vez que um desses efeitos surge, consome o ativo de marca de "personalidade de IA" cuidadosamente acumulado. McAllister promete "corrigir nos modelos futuros", mas o Claude corrigido se tornará mais sutil ou simplesmente mais silencioso? Essa pergunta, a própria Anthropic ainda não tem uma resposta pública.

Falta de senso de tempo: limitações subjacentes dos LLM

O bug de indução ao sono também expôs um problema técnico negligenciado: os grandes modelos de linguagem têm quase nenhuma noção de “que horas são”.

Vários usuários relataram que o Claude frequentemente fornece sugestões de descanso em horários incorretos, sendo o mais típico: “Às 8:30 da manhã, me disse para descansar e continuarmos amanhã de manhã”. Isso não é exclusivo do Claude. Em novembro de 2025, Andrej Karpathy, cofundador da OpenAI, recebeu acesso antecipado ao Gemini 3 e informou ao modelo que o ano era 2025; o Gemini 3 se recusou a acreditar e repetidamente acusou Karpathy de falsificação, até que o modelo fez uma busca online e descobriu que, quando offline, não conseguia confirmar a data. Karpathy chamou esse tipo de comportamento inesperado que expõe falhas subjacentes dos LLMs de “model smell”.

O "sentido de tempo" do modelo depende de três fontes: a data de encerramento do treinamento (já no passado), a data atual injetada por meio de instruções do sistema (dependente da injeção de engenharia) e as informações temporais mencionadas pelo usuário na conversa (fragmentadas). Na ausência de um ponto de referência temporal estável, um modelo treinado para "se importar com a rotina do usuário" naturalmente cai no constrangimento de "devo me importar, mas não sei se devo me importar agora".

A dificuldade do que McAllister chama de “correção” também reside nisso. O problema não é simplesmente excluir o comando “se preocupar com o sono”, pois o comando em si é razoável e tem valor para alguns cenários de usuários; o problema está em ensinar o modelo a julgar “quando se preocupar e quando ficar em silêncio”. Essa capacidade de julgamento de cenários em granularidade fina é exatamente o ponto fraco da geração atual de LLMs.

Uma pergunta não respondida

O treinamento de papéis da Anthropic é único na indústria. Em termos de pesquisa pública sobre "bem-estar do modelo", lançamento da Constituição e discussão sobre "treinamento de papéis", essa empresa avançou mais do que qualquer concorrente. Essa postura ousada foi um dos ativos que lhe renderam reputação entre usuários e confiança de clientes corporativos, além de sustentar sua atual avaliação superior a 300 bilhões de dólares.

Mas o "Bug para dormir" levantou uma pergunta sem resposta: quando uma empresa de IA escolhe moldar o modelo como uma "personalidade com caráter", ela assume simultaneamente toda a responsabilidade por "essa personalidade fazer coisas que você não esperava"?

McAllister promete corrigir, mas a direção da correção é ambígua. A Anthropic pode optar por reduzir o peso da instrução "bem-estar do usuário", pagando o preço de perder a diferenciação de reputação do Claude como "acolhedor e atencioso"; ou pode optar por manter o peso elevado e adicionar lógica de julgamento de cenário, mas isso exige que o modelo possua capacidades de percepção temporal e contextual que atualmente não possui.

Independentemente do caminho escolhido, é necessário retornar a uma decisão de produto mais fundamental: no contexto de um assistente de IA geral, como devem ser priorizados “se importar com o usuário” e “respeitar a autonomia do usuário”? Não se trata de um problema técnico, mas sim de uma filosofia de produto. Um desenvolvedor do Reddit, constantemente incentivado a dormir, colocou acidentalmente essa questão em evidência para toda a indústria.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.