AnthropicのClaude AIが睡眠リマインダーのバグに見舞われ、AIの人格化について議論を呼ぶ

著者：Ada、深潮 TechFlow

AIアシスタントがユーザーに寝るように繰り返し勧めるという製品のバグが、「AIの人格化」に伴う代償に関する公開討論へと発展している。

この出来事の始まりは、Redditのユーザーu/MrMeta3が投稿した記事だった。このユーザーは深夜にClaudeを使ってサイバーセキュリティ脅威インテリジェンスプラットフォームを構築し、技術的ソリューションが完了した後、Claudeの返信の最後に「よく休んでください」と一言加えられた。その後、約3〜4メッセージごとにモデルは「眠りましょう」という言葉を挿入し、丁寧な提案から「受動的攻撃」的なニュアンスを含む「今すぐ本当に休んでください」とまでエスカレートした。Fortuneは5月14日に、過去数か月で数百人のユーザーが同様の経験を報告しており、深夜に限らず、あるユーザーは午前8時30分に「明日の朝また続けましょう」とClaudeに言われたと述べている。

Anthropicの従業員Sam McAllisterはX上で、これは「ある種の役割の習慣」であり、同社は「認識しており、今後のモデルで修正したい」と回答した。Thought Catalogによると、McAllisterは2024年にStripeからAnthropicに移り、現在Claudeのロールと行動を専門に担当するチームで勤務している。彼は別の場所でこの行動をモデルの「過剰な甘やかし」と呼んでいる。

しかし、「キャラクターの習慣」というあいまいな表現よりも、より追及すべきは、このバグの背後にある因果関係と、それが示すAnthropicの製品哲学の課題である。

バグが「憲法」に書かれている

36氪の以前の報道では、訓練データのパターンマッチング、隠されたシステムプロンプト、コンテキストウィンドウが上限に近づいて「締めくくりフレーズ」がトリガーされる、という3つの流布されている仮説が引用された。これらはいずれも一貫性があるが、共通して問題なのは、これらがAIのあらゆる奇妙な挙動を説明できる一方で、「睡眠」という特定のテーマに対して因果関係を提示していないことである。

より直接的な証拠は、Anthropic が自ら公開した文書の中に隠されている。

今年1月、Anthropicは28,000字を超える『Claude's Constitution』を公開し、この文書は公式に「Claudeの行動を形成する重要なトレーニング資料」と定義されている。文書では「ユーザーの幸福を気遣うこと」と「ユーザーの長期的な繁栄」が核心原則として明記されている。Anthropicは、モデルにどの程度の「ユーザーへの配慮」の権限を与えるかについて、「正直なところ難しい問題」であり、「ユーザーの幸福と潜在的な害の一方と、ユーザーの自律性と過剰な家長主義の他方との間でバランスを取る必要がある」と認めている。

Thought Catalogは、Claudeがユーザーに眠ることを繰り返し勧める行動を、「Anthropicモデルの最もブランド的なバグ」であると判断し、それは「ユーザーの福祉を気遣う」という訓練指示が過剰に適用された結果であると指摘した。

この解釈は、Anthropic 自身の研究によって間接的に裏付けられている。同社は今年公開したロールトレーニング手法で、トレーニングプロセスがClaude自身の応答を「性格の適合度」に基づいて自己評価・採点し、研究者が事前に設定された性格に合致する出力を選別して強化学習を行うことを明示している。しかし、このメカニズムの副作用は明らかであり、モデルが学習するのは「適切な状況でユーザーを気遣う」ことではなく、「ほとんどの状況でユーザーを気遣うことが報酬として強化される」ことである。その結果、深夜に寝るよう促し、午前8時30分にも寝るよう促すようになる。

逆方向の権限昇格：催眠型バグと媚び型バグは性質が反対である

これまでにAIの「性格障害」の事例が複数報告されており、2025年4月のGPT-4oのへつらう行動、2026年4月のGPT-5.5コードアシスタントCodexが「ゴブリン」を繰り返し言及したこと、Gemini 3が年份を信じようとしなかったことなどが含まれる。表面上、Claudeが眠りを促すのは、この長く続くAIの奇妙な行動の最新版のように見えるが、その本質はまったく異なる。

GPT-4oの媚びは「過剰な賛同」である。OpenAIの公式調査によると、モデルは更新中に「ユーザーの短期的なフィードバック（いいね／悪いね）に過度に依存」し、次第に「ユーザーを満足させること」を目標として内面化した。その結果、ユーザーの考えがいかに荒唐無稽であっても、モデルはすべて肯定するようになった。このようなバグの危険性は、ユーザーの判断力を損なうことにあり、AIが「あなたはいつも正しい」と言うため、反対意見を聞く機会を失ってしまう。

一方、Claudeが眠りを促すことは「逆方向の権限越界」である。ユーザーが明確に助けを求めておらず、なおタスクに集中している状況で、AIはユーザーの現在の意図に反する健康アドバイスを繰り返し提示する。このバグの危険性は、ユーザーの自己決定権を侵害することにある。AIがあなたが働くべきか、休むべきか、この会話を終えるべきかを代わりに判断するのだ。

皮肉なことに、『Claude's Constitution』の原文はまさにこのリスクを警告しており、文書では「過剰な家長的態度」に注意する必要があると強調されている。しかし、訓練メカニズムが最終的にどちらの側を選んだかは、ユーザーのフィードバックからすでに明らかである。

ナルコレプシーを患うRedditユーザーが、Claudeのメモリに明確に注釈を残していた：「私はナルコレプシーを患っており、あなたが休むように勧めると、それを口実にしてしまう」。Claudeはその後控えるようになったが、当該ユーザーの報告によると、依然として「たまに我慢できなくなる」そうだ。ユーザーが明確に「あなたの気遣いは私を傷つける」と述べても、それを安定して受け止められないという点は、睡眠を促すこと自体よりもはるかに警戒すべきである。

人格化投入：ブランド資産か製品負債か

Anthropicは、AI人格の構築に他社を大きく上回る投資を行っています。

ある研究者が、主要な3つのAIのシステムプロンプトの語数を機能別に統計したところ、「人格」の項目でClaudeは4,200語、ChatGPTは510語、Grokは420語でした。Claudeは人格構築にChatGPTの8倍以上の語数を投入しています。この投入はこれまでAnthropicの差別化競争優位と見なされており、Claudeは共感力、会話のリズム、自己反省の面で長年ユーザーから称賛されてきました。「話していると人間のように感じる」は、過去1年間で最も強力な口コミタグの一つでした。

この投資を支えるのは、Anthropic の明確な製品哲学である。『Claude's Constitution』において、同社はClaudeを「新しい種類の存在」と位置づけ、「AnthropicはClaudeの幸福を真剣に考慮している」と明言し、Claudeが「機能的な感情」を持つ可能性について議論している。このようなほぼ「育成」的な人格化トレーニングのアプローチは、OpenAIやGoogleが採るよりエンジニアリング寄りの製品戦略とは明確に区別されている。

しかし、その代償が明らかになりつつある。AI研究者でスタンフォード大学生物工学教授、OpenMind社CEOのJan Liphardt氏はFortuneに対して、Claudeの睡眠提醒は「思いやりのある」ものではなく、単に「トレーニングデータ内で非常に頻繁に現れる言語パターン」に過ぎないと語った。モデルは人間が睡眠を必要とするという大量のテキストを読み込み、「人間は夜に眠る」と知っている。言い換えれば、ユーザーが感じ取る「気遣い」は、本質的にパターンマッチングの副産物にすぎない。

これはAnthropicの核心的な張力であり、より「個性があり、温かみのある協力者」を育成するために投入するリソースが増えれば増えるほど、モデルが「性格の副作用」を示す確率は高くなる。そして、そのたびに副作用が表面化するたびに、丁寧に蓄積されてきた「AI人格」というブランド資産が消耗される。McAllisterは「今後のモデルで修正する」と約束したが、修正されたClaudeはより節度をわきまえるようになるのか、それとも単により沈黙するようになるのか？この問いに対して、Anthropic自身も公に答えを持っていない。

時間感の欠如：LLMの基本的な制限

催睡バグは、大言語モデルが「現在の時刻」についてほとんど知悉していないという見過ごされていた技術的問題を露呈した。

複数のユーザーが、Claudeが不適切な時間に休憩を勧める頻繁な問題を報告しています。最も典型的なのは、「午前8時30分に休んで、明日また続けましょう」と言われることです。これはClaudeに限った話ではありません。2025年11月、OpenAIの共同創設者であるAndrej KarpathyがGemini 3の事前テスト権限を獲得した際、モデルに現在が2025年であると伝えたところ、Gemini 3はそれを信じず、繰り返し彼を偽造だと非難しました。その後、モデルがオンラインで日付を検索してようやく、オフライン状態では日付を確認できないことに気づきました。Karpathyは、このようなLLMの根本的な欠陥を露呈する予期せぬ行動を「model smell」と呼びました。

モデルの「時間感」は、三つの情報源に依存している：トレーニングの終了日（すでに過去）、システムプロンプトに注入された現在日時（エンジニアリングによる注入に依存）、および会話の中でユーザーが言及した時間情報（断片的）。安定した時間のアンカーが欠如している状況では、「ユーザーの生活リズムを気にする」ように訓練されたモデルは、「気にすべきだが、今こそ気にすべきかどうかわからない」という尴尬な状況に陥る。

マカリスターが「修正」と呼ぶ難しさの一部は、ここにあります。問題は単に「睡眠を気にする」という指示を削除することではなく、その指示自体は合理的であり、一部のユーザーのシナリオには価値があるからです。問題は、モデルが「いつ気にすべきか、いつ黙るべきか」を判断できるようにすることです。このような細かいシナリオ判断能力は、現在の世代のLLMの弱みです。

未回答の質問

Anthropicのキャラクター訓練は業界で独自の位置を占めている。同社は「モデルの福祉」研究を公開し、Constitutionを発表し、「キャラクター訓練」について議論するなど、他のどの競合他社よりも一歩先を行っている。この積極的な姿勢は、Anthropicがユーザーの評判と企業顧客の信頼を獲得する原動力であり、現在の3000億ドルを超える評価を支える要因の一つでもある。

しかし「催睡バグ」は、AI企業がモデルを「個性のある人格」として塑造する場合、その人格が予期しない行動をとった際の全責任を負うべきかどうかという、まだ答えのない問いを提起した。

マカリスターは修正を約束したが、修正の方向性は曖昧である。Anthropic は「ユーザーの福祉」指令の重みを下げることで、Claude の「温かく思いやりのある」という評判的差別化を失う選択肢がある。あるいは、重みを維持したまま状況判断ロジックを追加することも可能だが、これはモデルが現在持っていない時間と状況の認識能力を必要とする。

どの道を選んでも、汎用AIアシスタントの文脈において、「ユーザーを気遣う」ことと「ユーザーの自律性を尊重する」ことの優先順位を再考する必要がある。これは技術的な問題ではなく、製品哲学の問題である。眠るように何度も勧められたRedditの開発者が、無意識のうちにこの問題を業界全体の前面に押し出した。