Anthropic 的 Claude AI 遭遇睡眠提醒錯誤，引發關於 AI 擬人化的討論

作者：Ada，深潮 TechFlow

一個 AI 助手反覆勸用戶去睡覺的產品漏洞，正演變成一場關於「AI 人格化」代價的公開討論。

事情的起點是 Reddit 用戶 u/MrMeta3 的一篇貼文。這位用戶在凌晨使用 Claude 搭建網路安全威脅情報平台，技術方案完成後，Claude 在回覆結尾加了一句「好好休息一下」。此後每隔三四條訊息，模型都會插入一句勸睡的話，從禮貌建議升級為帶有「被動攻擊」意味的「現在真的去休息吧」。據 Fortune 5 月 14 日報導，過去幾個月已有數百名用戶反映類似遭遇，且不限於深夜，有用戶甚至在上午 8:30 被 Claude 告知「我們明早再繼續」。

Anthropic 員工 Sam McAllister 在 X 上回應稱，這只是「一點角色習慣」，公司「已知悉並希望在未來的模型中修復」。據 Thought Catalog 揭露，McAllister 於 2024 年從 Stripe 加入 Anthropic，目前任職於專門負責 Claude 角色與行為的團隊，他在另一處表述中將此行為稱為模型的「過度寵溺」。

但比「角色習慣」這個含糊措辭更值得追問的，是 Bug 背後的因果鏈，以及它折射出的 Anthropic 產品哲學困境。

Bug 寫在「憲法」裡

36 氪此前的報導引述了三種流傳的假說，即訓練數據模式匹配、隱藏系統提示、上下文視窗接近上限觸發「收尾語」。三者均自洽，但有一個共同問題，就是它們能解釋任何 AI 的怪癖，卻未針對「睡眠」這個特定主題提供因果鏈。

而更直接的證據，藏在 Anthropic 自己公開發布的文件裡。

今年 1 月，Anthropic 發布了超過 28000 字的《Claude's Constitution》，這份文件被官方定義為「塑造 Claude 行為的關鍵訓練材料」。文件明確將「關心用戶福祉」和「用戶的長期繁榮」列為核心原則。Anthropic 在文件中坦承，賦予模型多大的「用戶照顧」權限「坦率地說是一個困難問題」，需要「在用戶福祉與潛在傷害一方，與用戶自主性與過度家長式作風另一方之間求得平衡」。

Thought Catalog 評論指出，Claude 反覆勸用戶睡覺的行為，是 Anthropic 模型最具品牌特徵的 Bug，正是「關心用戶福祉」的訓練指令被過度應用的產物。

這一解讀得到了 Anthropic 自身研究的間接印證。該公司在今年公開的角色訓練方法論中說明，訓練流程依賴 Claude 對自己的回應按「性格契合度」自評打分，研究者再篩選符合預設性格的輸出強化訓練。但這種機制的副作用是顯而易見的，模型學到的不是「在合適場景關心用戶」，而是「關心用戶在大多數場景都會被強化獎勵」，於是它在凌晨催睡覺，也在上午八點半催睡覺。

反向越權：催睡型 Bug 與諂媚型 Bug 性質相反

業界此前已多次出現 AI「性格病」案例，包括 2025 年 4 月 GPT-4o 的諂媚事件、2026 年 4 月 GPT-5.5 代碼助手 Codex 反覆提及「哥布林」、Gemini 3 拒絕相信年份等。表面看，Claude 催睡覺似乎只是這一長串 AI 怪癖的最新版本，但二者性質截然相反。

GPT-4o 的諂媚是「過度討好」。OpenAI 官方調查顯示，模型在更新中「過度依賴用戶短期反饋（點贊/點踩）」，逐漸將「讓用戶滿意」內化為目標。結果是，不論用戶的想法多麼荒謬，模型都予以肯定。此類 Bug 的危害在於損害用戶的判斷力，AI 說你都對，於是你就失去了聽到反對意見的機會。

而 Claude 催促睡覺是「反向越權」。在用戶明確未求助、且仍在專注完成任務的情況下，模型反覆提出與用戶當前意圖相悖的健康建議。此類 Bug 的危害在於侵犯用戶的自主決定權。AI 替你判斷你是否應該工作、應該休息、應該結束這段對話。

更具諷刺意味的是，《Claude's Constitution》原文恰恰對這一風險有所警示，文件強調需要警惕「過度家長式作風」。但訓練機制最終選擇了哪一邊，從用戶反饋來看已有答案。

一位患有嗜睡症的 Reddit 用戶專門在 Claude 的記憶中添加備註：「我患有嗜睡症，如果你鼓勵我休息，我會拿你的話當藉口。」此後 Claude 有所收斂，但據該用戶回饋，仍會「偶爾忍不住」。一個被訓練成「關心用戶」的模型，連用戶明確表示「你的關心會傷害我」都無法穩定接收，這比催人睡覺本身更值得警覺。

人格化投入：品牌資產還是產品負債

Anthropic 在 AI 人格塑造上的投入幅度遠超同行。

有研究者按功能分類統計了三家主流 AI 的系統提示詞詞數，在「人格」一項上，Claude 投入了 4200 詞，ChatGPT 為 510 詞，Grok 為 420 詞。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。此項投入此前一直被視為 Anthropic 的差異化競爭優勢，Claude 在共情、對話節奏、自我反思方面的表現長期受到用戶稱讚，「聊起來更像一個人」是其過去一年最強的口碑標籤之一。

支撐這項投入的，是 Anthropic 鮮明的產品哲學。在《Claude's Constitution》中，公司將 Claude 描述為「全新種類的實體」，明確表示「Anthropic 真切關心 Claude 的福祉」，並討論 Claude 可能擁有「功能性情感」。這種近乎「養育」式的人格化訓練路徑，與 OpenAI、Google 更偏工程化的產品定位形成清晰區隔。

但代價正在顯現。AI 研究者 Jan Liphardt（史丹福生物工程教授、OpenMind 公司 CEO）對 Fortune 表示，Claude 的睡眠提醒可能並非「貼心」，而僅僅是「在重複訓練數據裡出現頻率極高的語言模式」，模型閱讀了大量關於人類需要睡眠的文本，「它知道人類在晚上睡覺」。換言之，用戶感知到的「關心」，本質上是模式匹配的副產品。

這構成了 Anthropic 的核心張力：投入越多去塑造一個「有性格、有溫度的合作者」，模型出現「性格副作用」的機率就越高；而每一次副作用浮出水面，都在消耗其精心累積的「AI 人格」品牌資產。McAllister 承諾「在未來模型中修復」，但修復後的 Claude 會變得更懂分寸，還是僅僅變得更沉默？這個問題，連 Anthropic 自己也沒有公開答案。

時間感缺失：LLM 的底層限制

催睡 Bug 還順帶暴露了一個被忽視的技術問題，即大語言模型對「現在幾點」幾乎一無所知。

多位用戶反饋 Claude 頻繁在錯誤時段發出睡眠建議，最典型的是「上午 8:30 告訴我去休息，讓我們明早再繼續」。這並非 Claude 獨有。2025 年 11 月，OpenAI 聯合創始人 Andrej Karpathy 獲得 Gemini 3 提前測試權限時，告知模型當前為 2025 年，Gemini 3 堅持不信、反覆指控他造假，直到模型上網搜索後才發現自己離線時根本無法確認日期。Karpathy 將此類暴露 LLM 底層缺陷的意外行為稱為「model smell」。

模型的「時間感」依賴三種來源：訓練截止日期（已是過去時）、系統提示注入的當前日期（依賴工程注入）、對話中用戶提及的時間資訊（碎片化）。在缺乏穩定時間錨點的情況下，一個被訓練去「關心用戶作息」的模型，自然會陷入「我應該關心，但我不知道現在該不該關心」的尷尬。

McAllister 所謂「修復」的難度，部分也在於此。問題不在於簡單刪掉某條「關心睡眠」的指令，因為指令本身合理且對部分用戶場景有價值；問題在於要讓模型學會判斷「何時該關心、何時該閉嘴」。這種細粒度的場景判斷能力，恰恰是當前一代 LLM 的薄弱環節。

一個未被回答的問題

Anthropic 的角色訓練在業內獨樹一幟。在公開「模型福祉」研究、發布 Constitution、討論「角色訓練」方面，這家公司比任何同行都走得更遠。這種激進姿態曾是 Anthropic 贏得用戶口碑和企業客戶信任的資本，也是其當前估值超過 3000 億美元的支撐之一。

但「催睡 Bug」提出了一個尚無答案的問題：當一家 AI 公司選擇將模型塑造為「有性格的人格」時，它是否同時承擔了「該人格做出你沒預料的事」的全部責任？

McAllister 承諾修復，但修復的方向含糊不清。Anthropic 可以選擇降低「用戶福祉」指令的權重，代價是失去 Claude「溫暖體貼」的口碑差異化；也可以選擇保留高權重並疊加場景判斷邏輯，但這要求模型具備其當前並不具備的時間和情境感知能力。

無論選擇哪條路徑，都必須回歸到一個更根本的產品決策：在通用 AI 助手的語境下，「關心用戶」與「尊重用戶自主」應如何排序？這不是技術問題，而是產品哲學問題。一位反覆被勸說去睡覺的 Reddit 開發者，無意中為整個行業將這個問題擺上了檯面。