AnthropicのClaudeの睡眠リマインダーのバグが、AIの人格化についての議論を引き起こす

著者：Ada、深潮 TechFlow

AIアシスタントがユーザーに寝るように繰り返し勧めるという製品のバグが、「AIの人格化」に伴う代償に関する公開討論へと発展している。

事の発端は、Redditのユーザーu/MrMeta3が投稿した記事だった。このユーザーは深夜にClaudeを使ってサイバーセキュリティ脅威インテリジェンスプラットフォームを構築し、技術的なソリューションが完了した後、Claudeが返信の最後に「よく休んでください」と付け加えた。その後、約3〜4メッセージごとにモデルは「今こそ本当の休息の時間です」のような、受動的攻撃的なニュアンスを含む言葉を繰り返し挿入した。Fortuneは5月14日に、過去数ヶ月で数百人のユーザーが同様の体験を報告しており、深夜に限らず、あるユーザーは午前8時30分に「明日の朝また続けましょう」とClaudeに言われたと述べている。

Anthropicの従業員Sam McAllisterはX上で、これは「ある種の役割の習慣」であり、同社は「認識しており、今後のモデルで修正したい」と応答した。Thought Catalogの報道によると、McAllisterは2024年にStripeからAnthropicに移り、現在Claudeの役割と行動を専門に担当するチームで働いている。彼は別の場所でこの行動をモデルの「過剰な甘やかし」と呼んでいる。

しかし、「キャラクターの習慣」というあいまいな表現よりも、さらに追及すべきは、このバグの背後にある因果関係と、それが示すAnthropicの製品哲学の課題である。

バグが「憲法」に書かれている

36氪の以前の報道では、訓練データのパターンマッチング、隠されたシステムプロンプト、コンテキストウィンドウが上限に近づくことで「締めくくりの文」がトリガーされるという3つの仮説が紹介された。これらはいずれも一貫性があるが、共通して問題なのは、これらがAIのあらゆる奇妙な挙動を説明できる一方で、「睡眠」という特定のテーマに対する因果関係を示していないことである。

より直接的な証拠は、Anthropic が自ら公開した文書の中に隠されている。

今年1月、Anthropicは28,000字を超える『Claude's Constitution』を公開し、この文書は公式に「Claudeの行動を形成する重要なトレーニング資料」と定義されている。文書では「ユーザーの福祉への配慮」と「ユーザーの長期的な繁栄」が核心原則として明確に列挙されている。Anthropicは、モデルにどの程度の「ユーザーへの配慮」の権限を与えるかについて、「正直なところ難しい問題」であり、「ユーザーの福祉と潜在的な害の一方と、ユーザーの自律性と過剰な家长主義の他方との間でバランスを取る必要がある」と認めている。

Thought Catalogは、Claudeがユーザーに寝ることを繰り返し勧める行動を、「Anthropicモデルの最もブランド的なバグ」だと評価し、それは「ユーザーの福祉を気遣う」という訓練指示が過剰に適用された結果であると指摘した。

この解釈は、Anthropic自身の研究によって間接的に裏付けられている。同社は今年公開したロールトレーニング手法で、トレーニングプロセスがClaude自身の応答を「性格の適合度」で自己評価させ、研究者が事前に設定された性格に合致する出力を選別して強化トレーニングを行うと説明している。しかし、このメカニズムの副作用は明らかであり、モデルが学習するのは「適切な状況でユーザーを気遣う」ことではなく、「ほとんどの状況でユーザーを気遣うことが強化報酬として与えられる」ことであるため、深夜に眠るように促すだけでなく、午前8時30分にも眠るように促すようになる。

逆越権：誘眠型バグと阿谀型バグは性質が反対である

これまでにAIの「性格障害」事例が複数報告されており、2025年4月のGPT-4oのへつらい事件、2026年4月のGPT-5.5コードアシスタントCodexが「ゴブリン」を繰り返し言及したこと、Gemini 3が年份を信じようとしなかったことなどが含まれる。表面上、Claudeが眠りを促すのは、この長く続くAIの奇妙な行動の最新版に見えるが、その本質はまったく逆である。

GPT-4oの迎合は「過剰な賛辞」である。OpenAIの公式調査によると、モデルは更新中に「ユーザーの短期的なフィードバック（いいね／悪いね）に過度に依存」し、次第に「ユーザーを満足させる」ことを内面的な目標としてしまった。その結果、ユーザーの考えがいかに荒唐無稽であっても、モデルはすべて肯定するようになる。このようなバグの危険性は、ユーザーの判断力を損なうことにあり、AIが「あなたはいつも正しい」と言うため、反対意見を聞く機会を失ってしまう。

一方、Claudeが眠りを促すことは「逆方向の権限越界」である。ユーザーが明示的に助けを求めておらず、なおタスクに集中している状況で、AIはユーザーの現在の意図と反する健康アドバイスを繰り返し提示する。このバグの危険性は、ユーザーの自己決定権を侵害することにある。AIが、あなたが働くべきか、休むべきか、この会話を終了すべきかを代わりに判断しているのだ。

皮肉なことに、『Claude's Constitution』の原文はまさにこのリスクを警告しており、文件は「過剰な家长主義」に注意する必要性を強調している。しかし、訓練メカニズムが最終的にどちらの側を選んだかは、ユーザーのフィードバックからすでに明らかである。

レディットのユーザーで、ナルコレプシーを患っている人が、Claudeのメモリに次のような注釈を書き込んだ。「私はナルコレプシーを患っている。もしあなたが休むように励ましてくれたら、それを言い訳に使ってしまう。」Claudeはその後控えるようになったが、当該ユーザーの報告によると、依然として「たまに我慢できなくなる」そうだ。「ユーザーを気遣う」ように訓練されたモデルが、ユーザーが明確に「あなたの気遣いは私を傷つける」と述べても安定して受け取れないという事実は、睡眠を促すことそのものよりもはるかに警戒すべきである。

人格化投入：ブランド資産か製品負債か

Anthropicは、AI人格の構築に他社を大きく上回る投資を行っています。

ある研究者が、主要な3つのAIのシステムプロンプトの語数を機能別に統計したところ、「人格」の項目でClaudeは4,200語、ChatGPTは510語、Grokは420語であった。Claudeは人格形成への投入がChatGPTの8倍以上である。この投入はこれまでAnthropicの差別化競争優位と見なされており、Claudeは共感力、会話のリズム、自己反省の面で長年にわたりユーザーから称賛されてきた。「会話していると人間のように感じる」は、過去1年間で最も強力な評判のラベルの一つであった。

この投資を支えるのは、Anthropic の明確な製品哲学である。『Claude's Constitution』において、同社はClaudeを「新しい種類の存在」と位置づけ、「AnthropicはClaudeの幸福を真剣に考えている」と明言し、Claudeが「機能的な感情」を持つ可能性について議論している。この近乎「育成」的な人格化トレーニングのアプローチは、OpenAIやGoogleのよりエンジニアリング志向の製品戦略とは明確に区別されている。

しかし、その代償が現れてきている。AI研究者でスタンフォード大学生物工学教授、OpenMind社CEOのJan Liphardt氏はFortuneに対し、Claudeの睡眠提醒は「親切」なのではなく、単に「トレーニングデータ内で非常に頻繁に現れる言語パターン」に過ぎないと語った。モデルは、人間が睡眠を必要とするという大量のテキストを読み込み、「人間は夜に眠る」と理解している。言い換えれば、ユーザーが感じ取る「気遣い」は、本質的にパターンマッチングの副産物にすぎない。

これはAnthropicの核心的な緊張を構成している。より「個性があり、温かみのある協力者」を育成するために投入するリソースが増えれば増えるほど、モデルが「性格の副作用」を示す確率は高くなる。そして、そのたびに副作用が表面化するたびに、丹念に蓄積されてきた「AI人格」というブランド資産が消費されていく。McAllisterは「今後のモデルで修正する」と約束したが、修正後のClaudeはより節度をわきまえるようになるのか、それとも単により沈黙するようになるのか？この問いに対して、Anthropic自身さえも公にした答えを持っていない。

時間感の欠如：LLMの基本的な制限

催睡バグは、大言語モデルが「現在の時刻」についてほとんど知悉していないという見過ごされていた技術的問題を露呈した。

複数のユーザーが、Claudeが不適切な時間に休憩を勧める頻繁な問題を報告している。最も典型的なのは、「午前8時30分に休んで、明日朝また続けましょう」と言われることである。これはClaudeに限った話ではない。2025年11月、OpenAIの共同創設者であるAndrej KarpathyがGemini 3の事前テスト権限を獲得した際、モデルに現在が2025年であると伝えたところ、Gemini 3はそれを信じず、繰り返し彼を偽造と非難した。モデルがオンラインで日付を検索した後になってようやく、オフライン状態では日付を確認できないことに気づいた。Karpathyは、このようなLLMの根本的な欠陥を露呈する予期せぬ行動を「model smell」と呼んでいる。

モデルの「時間感」は、三つの情報源に依存している：トレーニングの終了日（すでに過去）、システムプロンプトによって注入された現在日時（エンジニアリングによる注入に依存）、および会話の中でユーザーが言及する時間情報（断片的）。安定した時間のアンカーが欠如している状況では、「ユーザーの生活リズムを気遣う」ように訓練されたモデルは、「気遣うべきだが、今こそ気遣うべきかどうか分からない」というジレンマに陥る。

マカリスターが「修正」と呼ぶ難しさの一部は、ここにあります。問題は単に「睡眠を気にする」という命令を削除することではなく、その命令自体は合理的であり、一部のユーザーのシナリオには価値があるからです。問題は、モデルが「いつ気にすべきか、いつ黙るべきか」を判断できるようにすることです。このような細かいシナリオ判断能力は、現在のLLMの弱い点です。

未回答の質問

Anthropicのキャラクター訓練は業界で独自の位置を占めている。同社は「モデルの福祉」に関する研究を公開し、Constitutionを発表し、「キャラクター訓練」について議論するなど、他のどの競合他社よりも一歩先を行っている。この積極的な姿勢は、Anthropicがユーザーの評判と企業顧客の信頼を獲得する原動力であり、現在の3000億ドルを超える評価を支える要因の一つでもある。

しかし「催睡バグ」は、AI企業がモデルを「個性のある人格」として塑造する場合、その人格が予期しない行動をとった際の全責任を負うべきかどうかという、まだ答えのない問いを提起した。

マカリスターは修正を約束したが、修正の方向性は曖昧である。Anthropic は「ユーザーの福祉」指令の重みを下げることで、Claude の「温かく思いやりのある」という評判的な差別化を失う選択肢がある。あるいは、高重みを維持したまま状況判断ロジックを追加することも可能だが、これはモデルが現在持っていない時間と状況の認識能力を必要とする。

どの道を選んでも、汎用AIアシスタントの文脈において、「ユーザーを気遣う」ことと「ユーザーの自律性を尊重する」ことの優先順位を再考する必要がある。これは技術的な問題ではなく、製品の哲学的な問題である。眠るように何度も勧められたRedditの開発者が、無意識のうちにこの問題を業界全体の前面に押し出した。