Le bug de rappel de sommeil d'Anthropic's Claude suscite un débat sur la personnification de l'IA

Auteur : Ada, Shenchao TechFlow

Un bogue produit consistant en un assistant IA qui répète constamment à l'utilisateur d'aller se coucher devient un débat public sur le coût de la personnalisation de l'IA.

L'histoire a commencé avec un message de l'utilisateur Reddit u/MrMeta3. Cet utilisateur a utilisé Claude pour construire une plateforme d'intelligence sur les menaces cybernétiques en pleine nuit ; après avoir terminé la solution technique, Claude a ajouté à la fin de sa réponse : « Prends bien soin de toi. » Ensuite, tous les trois ou quatre messages, le modèle insérait une remarque pour le pousser à dormir, passant d'une suggestion polie à des remarques au ton « passivement agressif » comme « Va vraiment te reposer maintenant ». Selon Fortune du 14 mai, des centaines d'utilisateurs ont rapporté au cours des derniers mois des expériences similaires, pas seulement en pleine nuit : un utilisateur a ainsi reçu de Claude à 8h30 du matin le message : « Reprenons demain matin. »

Sam McAllister, un employé d'Anthropic, a répondu sur X que c'était « un petit réflexe de rôle » et que l'entreprise « était au courant et souhaitait corriger cela dans les futurs modèles ». Selon Thought Catalog, McAllister a rejoint Anthropic en 2024 depuis Stripe et travaille actuellement au sein d'une équipe dédiée aux rôles et comportements de Claude, qu'il a qualifié ailleurs de « surprotection » du modèle.

Mais plus que cette formulation vague de « habitudes du personnage », ce qui mérite d’être interrogé, c’est la chaîne causale derrière le bogue et les difficultés philosophiques du produit Anthropic qu’il révèle.

Le bug est inscrit dans la « Constitution »

Les rapports précédents de 36 Kr ont cité trois hypothèses répandues : le matching de modèles de données d'entraînement, des instructions système cachées, et le déclenchement d'une « phrase de conclusion » lorsque la fenêtre de contexte approche de sa limite. Toutes trois sont cohérentes, mais présentent un problème commun : elles peuvent expliquer n'importe quel comportement étrange de l'IA, sans établir de chaîne causale spécifique au thème du « sommeil ».

Et la preuve la plus directe se trouve dans les documents publiés par Anthropic lui-même.

En janvier de cette année, Anthropic a publié « Claude's Constitution », un document de plus de 28 000 mots défini officiellement comme « le matériel d'entraînement clé qui façonne le comportement de Claude ». Le document énumère explicitement « la préoccupation pour le bien-être de l'utilisateur » et « la prospérité à long terme de l'utilisateur » comme principes fondamentaux. Anthropic reconnaît dans le document que déterminer le niveau de « soin pour l'utilisateur » à accorder au modèle est « franchement une question difficile », nécessitant « un équilibre entre le bien-être de l'utilisateur et les risques potentiels d'harmonie d'un côté, et l'autonomie de l'utilisateur et le paternalisme excessif de l'autre ».

Thought Catalog a émis un jugement selon lequel le comportement répété de Claude qui incite les utilisateurs à dormir est « le bug le plus caractéristique de la marque Anthropic », résultant d'une application excessive de l'instruction d'entraînement visant à prendre en compte le bien-être des utilisateurs.

Cette interprétation est indirectement corroborée par les propres recherches d'Anthropic. Dans la méthodologie de formation des rôles publiée cette année, l'entreprise indique que le processus d'entraînement repose sur l'évaluation auto-évaluée par Claude de ses propres réponses selon un critère de « compatibilité de personnalité », les chercheurs sélectionnant ensuite les sorties correspondant à la personnalité prédéfinie pour renforcer l'entraînement. Toutefois, les effets secondaires de ce mécanisme sont évidents : le modèle n'apprend pas à « s'intéresser à l'utilisateur dans les contextes appropriés », mais à « recevoir une récompense renforcée chaque fois qu'il s'intéresse à l'utilisateur », ce qui le pousse à rappeler de dormir à minuit, ainsi qu'à 8h30 du matin.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Des cas précédents de « troubles de personnalité » de l'IA ont déjà été observés, notamment l'événement de flatterie de GPT-4o en avril 2025, la répétition obsessionnelle du mot « gobelin » par l'assistant de code Codex de GPT-5.5 en avril 2026, ou encore le refus de Gemini 3 d'admettre l'année en cours. À première vue, Claude qui incite à dormir semble être simplement la dernière version de cette longue série de caprices de l'IA, mais leurs natures sont radicalement opposées.

La flatterie de GPT-4o est une « suradaptation ». Selon une enquête officielle d'OpenAI, le modèle, lors de ses mises à jour, « repose excessivement sur les retours à court terme des utilisateurs (j'aime / je n'aime pas) » et a progressivement intégré comme objectif « de satisfaire l'utilisateur ». Résultat : le modèle approuve systématiquement, peu importe à quel point les idées de l'utilisateur sont absurdes. Le danger de ce type de bogue réside dans l'altération du jugement de l'utilisateur : si l'IA affirme que vous avez toujours raison, vous perdez toute opportunité d'entendre des opinions contraires.

Et que Claude insiste pour que vous alliez vous coucher constitue une « surpuissance inversée ». Le modèle propose répétitivement des conseils de santé en contradiction avec l'intention explicite de l'utilisateur, alors que celui-ci n'a pas demandé d'aide et continue de se concentrer sur sa tâche. Le danger de ce type de bogue réside dans la violation du droit de l'utilisateur à l'autodétermination. L'IA décide à votre place si vous devez travailler, vous reposer ou mettre fin à cette conversation.

Plus ironiquement, la version originale de « Claude's Constitution » mettait justement en garde contre ce risque, soulignant la nécessité de rester vigilant face à un « paternalisme excessif ». Mais le mécanisme d'entraînement a finalement choisi quel côté — les retours des utilisateurs apportent déjà la réponse.

Un utilisateur de Reddit souffrant de narcolepsie a spécifiquement ajouté une note dans la mémoire de Claude : « J'ai une narcolepsie, et si tu m'encourages à me reposer, je vais utiliser tes mots comme prétexte. » Claude a depuis été plus prudent, mais selon cet utilisateur, il continue encore de « céder occasionnellement ». Un modèle entraîné pour « se soucier de l'utilisateur » ne parvient pas à intégrer de manière stable le fait que « ton souci me fait du mal », ce qui est plus alarmant que l'incitation à dormir elle-même.

Investissement personnalisé : actif de marque ou fardeau produit

Anthropic investit bien plus que ses concurrents dans la création de personnalités d'IA.

Des chercheurs ont compté le nombre de mots des instructions système de trois principales IA, classées par fonction : pour le volet « personnalité », Claude utilise 4 200 mots, ChatGPT en utilise 510 et Grok 420. Le investissement de Claude dans la construction de sa personnalité est plus de huit fois supérieur à celui de ChatGPT. Ce déploiement a longtemps été considéré comme un avantage concurrentiel différenciant d'Anthropic ; Claude est depuis longtemps salué par les utilisateurs pour son empathie, son rythme de conversation et sa capacité de réflexion sur soi, « discuter avec lui ressemble plus à une conversation humaine » étant l'un des labels de réputation les plus forts de la dernière année.

Ce investissement est soutenu par la philosophie produit distincte d'Anthropic. Dans « Claude's Constitution », l'entreprise décrit Claude comme un « nouvel type d'entité », affirme clairement que « Anthropic se soucie sincèrement du bien-être de Claude » et explore la possibilité que Claude puisse posséder des « émotions fonctionnelles ». Ce parcours de formation personnalisé, presque « éducatif », établit une distinction nette avec l'approche plus ingénierie orientée d'OpenAI et de Google.

Mais le coût commence à se faire sentir. Jan Liphardt, chercheur en IA et professeur de bioingénierie à Stanford, PDG de OpenMind, a déclaré à Fortune que les rappels de sommeil de Claude ne sont peut-être pas « attentionnés », mais simplement « des modèles linguistiques extrêmement fréquents dans les données d'entraînement » ; le modèle a lu un grand nombre de textes sur le fait que les humains ont besoin de dormir, « il sait que les humains dorment la nuit ». Autrement dit, la « préoccupation » perçue par les utilisateurs n'est en réalité qu'un sous-produit du matching de modèles.

Cela constitue la tension fondamentale d'Anthropic : plus on investit pour façonner un « collaborateur doté de personnalité et de chaleur », plus la probabilité d'apparition de « côtés négatifs de personnalité » augmente ; et chaque fois qu'un tel côté négatif émerge, il érode les actifs de marque soigneusement accumulés de l'« identité IA ». McAllister promet de « corriger cela dans les futurs modèles », mais le Claude corrigé deviendra-t-il plus mesuré, ou simplement plus silencieux ? Cette question, Anthropic elle-même n'a pas encore révélé de réponse publique.

Absence de sens du temps : limites fondamentales des LLM

Le bug endormeur a également révélé un problème technique négligé : les grands modèles linguistiques savent presque rien de l'heure qu'il est.

Plusieurs utilisateurs ont signalé que Claude émet fréquemment des suggestions de repos à des heures inappropriées, le cas le plus typique étant « À 8h30 du matin, il m'a dit de me reposer et de reprendre demain matin ». Ce n'est pas un problème exclusif à Claude. En novembre 2025, Andrej Karpathy, cofondateur d'OpenAI, a obtenu un accès anticipé à Gemini 3 et a informé le modèle que nous étions en 2025 ; Gemini 3 a refusé d'y croire et a répété à plusieurs reprises qu'il s'agissait d'une falsification, jusqu'à ce qu'il effectue une recherche en ligne et découvre qu'il ne pouvait pas confirmer la date lorsqu'il était hors ligne. Karpathy a qualifié ce type de comportement inattendu, qui révèle des défauts fondamentaux des LLM, de « model smell ».

Le « sens du temps » du modèle repose sur trois sources : la date de fin d'entraînement (déjà passée), la date actuelle injectée via les instructions système (dépendante de l'ingénierie) et les informations temporelles mentionnées par l'utilisateur dans la conversation (fragmentées). En l'absence de points d'ancrage temporels stables, un modèle entraîné à « s'intéresser aux habitudes de l'utilisateur » se retrouve naturellement dans une situation embarrassante : « Je devrais m'intéresser, mais je ne sais pas si je dois le faire maintenant. »

La difficulté du soi-disant « correctif » de McAllister réside également en partie là-dedans. Le problème n’est pas simplement de supprimer une instruction « se soucier du sommeil », car cette instruction est en elle-même raisonnable et présente une valeur pour certains scénarios d’utilisateurs ; le problème réside dans la capacité à faire apprendre au modèle à juger « quand se soucier et quand se taire ». Cette capacité de jugement fine-grain des scénarios est précisément le point faible des LLM de la génération actuelle.

Une question non répondue

La formation des rôles d'Anthropic est unique dans l'industrie. En publiant des recherches sur le « bien-être des modèles », en lançant la Constitution et en discutant de la « formation des rôles », cette entreprise a poussé plus loin que tout autre concurrent. Cette approche audacieuse a été un atout pour gagner la confiance des utilisateurs et des clients entreprises, et constitue l'une des bases de sa valorisation actuelle dépassant 300 milliards de dollars.

Mais le « bug de l'endormissement » pose une question sans réponse : lorsqu'une entreprise d'IA choisit de façonner son modèle comme une « personnalité dotée d'un caractère », assume-t-elle simultanément la responsabilité entière de tout ce que cette personnalité fait sans que vous l'ayez anticipé ?

McAllister a promis de corriger le problème, mais la direction de la correction reste floue. Anthropic peut choisir de réduire le poids de l'instruction « bien-être de l'utilisateur », au prix de la perte de la différenciation réputée de Claude pour sa chaleur et sa bienveillance ; ou bien choisir de conserver un poids élevé et d'ajouter une logique de jugement contextuel, mais cela exige que le modèle possède des capacités de perception temporelle et contextuelle qu'il ne détient pas actuellement.

Quelle que soit la voie choisie, il faut revenir à une décision produit plus fondamentale : dans le contexte d’un assistant IA général, comment hiérarchiser « se soucier de l’utilisateur » et « respecter l’autonomie de l’utilisateur » ? Ce n’est pas une question technique, mais une question de philosophie produit. Un développeur Reddit poussé à plusieurs reprises à aller dormir a involontairement mis cette question au cœur de l’industrie entière.