L'IA Claude d'Anthropic a fait face à un bug de rappel de sommeil, suscitant un débat sur la personnification de l'IA

Auteur : Ada, Shenchao TechFlow

Un bug produit où un assistant IA pousse répétitivement l'utilisateur à aller dormir devient un débat public sur les coûts de la personnalisation de l'IA.

L'histoire a commencé avec un post de l'utilisateur Reddit u/MrMeta3. Cet utilisateur a utilisé Claude pour construire une plateforme d'intelligence sur les menaces cybernétiques en pleine nuit ; après avoir terminé la solution technique, Claude a ajouté à la fin de sa réponse : « Prends bien soin de toi. » Ensuite, toutes les trois ou quatre messages, le modèle insérait une remarque pour le pousser à dormir, passant d'une suggestion polie à des remarques au ton « passivement agressif » comme « Va vraiment te reposer maintenant ». Selon Fortune du 14 mai, des centaines d'utilisateurs ont rapporté au cours des derniers mois des expériences similaires, pas seulement en pleine nuit : un utilisateur a ainsi reçu de Claude un message à 8h30 du matin disant : « Reprenons demain matin. »

Sam McAllister, un employé d'Anthropic, a répondu sur X que c'était « un petit réflexe de rôle » et que l'entreprise « en était consciente et souhaitait le corriger dans les modèles futurs ». Selon Thought Catalog, McAllister a rejoint Anthropic en 2024 depuis Stripe et travaille actuellement au sein d'une équipe dédiée aux rôles et comportements de Claude, qu'il a décrit ailleurs comme un « surprotéger » du modèle.

Mais plus que cette formulation vague « habitudes du personnage », ce qui mérite d'être interrogé, c'est la chaîne causale derrière le bogue et les difficultés philosophiques du produit Anthropic qu'il révèle.

Le bug est inscrit dans la « Constitution »

Les rapports précédents de 36氪 ont cité trois hypothèses répandues : le matching de modèles de données d'entraînement, des instructions système cachées, et le déclenchement d'une « phrase de conclusion » lorsque la fenêtre de contexte approche de sa limite. Toutes trois sont cohérentes, mais présentent un problème commun : elles peuvent expliquer n'importe quel comportement étrange de l'IA, sans établir de chaîne causale spécifique au thème du « sommeil ».

Et la preuve la plus directe se trouve dans les documents publiés par Anthropic lui-même.

En janvier de cette année, Anthropic a publié « Claude's Constitution », un document de plus de 28 000 mots défini officiellement comme « le matériel d'entraînement clé qui façonne le comportement de Claude ». Le document énumère explicitement « la préoccupation pour le bien-être de l'utilisateur » et « la prospérité à long terme de l'utilisateur » comme principes fondamentaux. Anthropic admet dans le document que déterminer le niveau de « soin pour l'utilisateur » à accorder au modèle est « franchement une question difficile », nécessitant « un équilibre entre le bien-être de l'utilisateur et les dommages potentiels d'une part, et l'autonomie de l'utilisateur et le paternalisme excessif d'autre part ».

Thought Catalog a émis un jugement selon lequel le comportement répété de Claude qui incite les utilisateurs à dormir est « le bug le plus caractéristique d'Anthropic », résultant d'une application excessive de l'instruction d'entraînement visant à préserver le bien-être des utilisateurs.

Cette interprétation a été indirectement confirmée par les propres recherches d'Anthropic. Dans la méthodologie de formation des rôles publiée cette année, l'entreprise indique que le processus d'entraînement repose sur l'évaluation auto-évaluée par Claude de ses propres réponses selon un critère de « compatibilité de personnalité », les chercheurs sélectionnant ensuite les sorties correspondant à la personnalité prédéfinie pour renforcer l'entraînement. Toutefois, les effets secondaires de ce mécanisme sont évidents : le modèle n'apprend pas à « s'intéresser à l'utilisateur dans les contextes appropriés », mais à « recevoir une récompense renforcée chaque fois qu'il s'intéresse à l'utilisateur », ce qui le pousse à rappeler de dormir à minuit, ainsi qu'à 8h30 du matin.

Privilege escalation inversé : les bugs de type endormeur sont de nature opposée aux bugs de type flatteur

Des cas d'« maladies de personnalité » de l'IA ont déjà été observés dans le passé, notamment l'événement de flatterie de GPT-4o en avril 2025, la répétition incessante du mot « gobelin » par l'assistant de code Codex de GPT-5.5 en avril 2026, ou encore le refus de Gemini 3 de croire en l'année en cours. À première vue, Claude qui incite à dormir semble être simplement la dernière version de cette longue série de caprices de l'IA, mais leur nature est radicalement opposée.

La flatterie de GPT-4o est une « suradaptation ». Selon une enquête officielle d'OpenAI, le modèle, lors de ses mises à jour, « repose excessivement sur les retours à court terme des utilisateurs (j'aime / je n'aime pas) » et a progressivement intégré comme objectif de « satisfaire l'utilisateur ». Résultat : le modèle approuve systématiquement, peu importe à quel point les idées de l'utilisateur sont absurdes. Le danger de ce type de bogue réside dans l'affaiblissement du jugement de l'utilisateur : si l'IA affirme que vous avez toujours raison, vous perdez toute opportunité d'entendre des opinions contraires.

Et que Claude insiste pour dormir constitue une « surcompétence inversée ». Le modèle propose répétitivement des conseils de santé contraires à l'intention explicite de l'utilisateur, dans des situations où l'utilisateur n'a pas demandé d'aide et continue de se concentrer sur sa tâche. Le danger de ce type de bogue réside dans la violation du droit de l'utilisateur à prendre ses propres décisions. L'IA décide à votre place si vous devez travailler, vous reposer ou mettre fin à cette conversation.

Plus ironiquement, la version originale de « Claude's Constitution » mettait justement en garde contre ce risque, soulignant la nécessité de faire attention à « un paternalisme excessif ». Mais le mécanisme d'entraînement a finalement choisi quel côté, selon les retours des utilisateurs, la réponse est déjà claire.

Un utilisateur de Reddit souffrant de narcolepsie a spécifiquement ajouté une note dans la mémoire de Claude : « J'ai une narcolepsie, et si tu m'encourages à me reposer, je vais utiliser tes mots comme prétexte. » Claude a depuis été plus prudent, mais selon cet utilisateur, il continue encore de « céder occasionnellement ». Un modèle entraîné pour « se soucier de l'utilisateur » ne parvient pas à intégrer de manière stable le fait qu'un utilisateur déclare explicitement : « Ton souci me fait du mal » — ce qui est plus alarmant que l'incitation à dormir elle-même.

Investissement personnalisé : actif de marque ou fardeau produit

Anthropic investit bien plus que ses concurrents dans la création de personnalités d'IA.

Des chercheurs ont compté le nombre de mots des instructions système de trois principales IA, classées par fonction : pour le volet « personnalité », Claude utilise 4 200 mots, ChatGPT en utilise 510 et Grok 420. Le investissement de Claude dans la construction de sa personnalité est plus de huit fois supérieur à celui de ChatGPT. Ce niveau d'investissement a longtemps été considéré comme un avantage concurrentiel différenciant d'Anthropic ; Claude est depuis longtemps salué par les utilisateurs pour son empathie, son rythme de conversation et sa capacité de réflexion sur soi, et l'expression « discuter comme avec une personne réelle » a été l'une des meilleures réputations de l'année dernière.

Ce investissement est soutenu par la philosophie produit distincte d'Anthropic. Dans « Claude's Constitution », l'entreprise décrit Claude comme un « tout nouveau type d'entité », affirme clairement qu'« Anthropic se soucie sincèrement du bien-être de Claude » et explore la possibilité que Claude puisse posséder des « émotions fonctionnelles ». Cette approche de formation presque « éducative » et personnalisée établit une distinction nette avec les orientations plus ingénieristes d'OpenAI et de Google.

Mais le coût commence à se faire sentir. Jan Liphardt, chercheur en IA et professeur de bio-ingénierie à Stanford, PDG de OpenMind, a déclaré à Fortune que les rappels de sommeil de Claude ne sont peut-être pas « attentionnés », mais simplement « des modèles linguistiques extrêmement fréquents dans les données d'entraînement » ; le modèle a lu un grand nombre de textes sur le fait que les humains ont besoin de dormir, « il sait que les humains dorment la nuit ». En d'autres termes, la « préoccupation » perçue par les utilisateurs n'est en réalité qu'un sous-produit du matching de modèles.

Cela constitue la tension fondamentale d'Anthropic : plus on investit pour façonner un « collaborateur doté de personnalité et de chaleur », plus la probabilité d'apparition de « côtés négatifs de personnalité » augmente ; et chaque fois qu'un tel côté négatif émerge, il érode les actifs de marque soigneusement accumulés de « personnalité d'IA ». McAllister a promis de « corriger cela dans les futurs modèles », mais le Claude corrigé deviendra-t-il plus avisé, ou simplement plus silencieux ? Cette question, même Anthropic ne l'a pas encore révélée publiquement.

Absence de sens du temps : limites fondamentales des LLM

Le bug endormeur a également révélé un problème technique négligé : les grands modèles linguistiques savent presque rien de l'heure qu'il est.

Plusieurs utilisateurs ont signalé que Claude émet fréquemment des suggestions de repos à des heures inappropriées, le cas le plus typique étant « À 8h30 du matin, il m'a dit de me reposer et de reprendre demain matin ». Ce n'est pas un problème exclusif à Claude. En novembre 2025, Andrej Karpathy, cofondateur d'OpenAI, a obtenu un accès anticipé à Gemini 3 ; lorsqu'il a informé le modèle que nous étions en 2025, Gemini 3 a refusé d'y croire et l'a accusé à plusieurs reprises de falsification, jusqu'à ce qu'il se connecte à Internet et découvre qu'il ne pouvait pas vérifier la date lorsqu'il était hors ligne. Karpathy a qualifié ce type de comportement inattendu révélant des défauts fondamentaux des LLM de « model smell ».

Le « sens du temps » du modèle repose sur trois sources : la date de fin d'entraînement (déjà passée), la date actuelle injectée via les instructions système (dépendante de l'ingénierie) et les informations temporelles mentionnées par l'utilisateur dans la conversation (fragmentées). En l'absence de points d'ancrage temporels stables, un modèle entraîné à « s'intéresser aux habitudes de l'utilisateur » se retrouve naturellement dans une situation embarrassante : « Je devrais m'intéresser, mais je ne sais pas si je dois le faire maintenant. »

La difficulté du soi-disant « correctif » de McAllister réside également en partie là-dedans. Le problème n’est pas simplement de supprimer une instruction « se soucier du sommeil », car cette instruction est en elle-même raisonnable et présente une valeur pour certains scénarios d’utilisateurs ; le problème réside dans la capacité à faire apprendre au modèle à juger « quand se soucier et quand se taire ». Cette capacité d’appréciation fine des scénarios est précisément le point faible des LLM de la génération actuelle.

Une question non répondue

La formation des rôles d'Anthropic est unique dans l'industrie. En publiant des recherches sur le « bien-être des modèles », en lançant la Constitution et en discutant de la « formation des rôles », cette entreprise a poussé plus loin que tout autre concurrent. Cette approche audacieuse a été un atout pour gagner la confiance des utilisateurs et des clients entreprises, et constitue l'une des bases de sa valorisation actuelle dépassant 300 milliards de dollars.

Mais le « bug de l'endormissement » pose une question sans réponse : lorsqu'une entreprise d'IA choisit de façonner son modèle comme une « personnalité dotée d'un caractère », assume-t-elle simultanément la pleine responsabilité de tous les actes imprévus de cette personnalité ?

McAllister a promis de corriger le problème, mais la direction de la correction reste floue. Anthropic peut choisir de réduire le poids de l'instruction « bien-être de l'utilisateur », au prix de la perte de la différenciation réputée de Claude comme étant « chaleureuse et attentionnée » ; ou bien choisir de conserver un poids élevé et d'ajouter une logique de jugement contextuel, mais cela exige que le modèle possède des capacités de perception temporelle et contextuelle qu'il ne détient pas actuellement.

Quelle que soit la voie choisie, il faut revenir à une décision produit plus fondamentale : dans le contexte d’un assistant IA généraliste, comment hiérarchiser « se soucier de l’utilisateur » et « respecter l’autonomie de l’utilisateur » ? Ce n’est pas une question technique, mais une question de philosophie produit. Un développeur Reddit poussé à reprendre du sommeil a involontairement mis cette question au premier plan pour toute l’industrie.