作者:Ada,深潮 TechFlow
一個 AI 助手反覆勸用戶去睡覺的產品漏洞,正演變成一場關於「AI 人格化」代價的公開討論。
事情的起點是 Reddit 用戶 u/MrMeta3 的一篇貼文。這位用戶在凌晨使用 Claude 搭建網路安全威脅情報平台,技術方案完成後,Claude 在回覆結尾加了一句「好好休息一下」。此後每隔三四條訊息,模型都會插入一句勸睡的話,從禮貌建議升級為帶有「被動攻擊」意味的「現在真的去休息吧」。據 Fortune 5 月 14 日報導,過去幾個月已有數百名用戶反映類似遭遇,且不限於深夜,有用戶甚至在上午 8:30 被 Claude 告知「我們明早再繼續」。
Anthropic 員工 Sam McAllister 在 X 上回應稱,這只是「一點角色習慣」,公司「已知悉並希望在未來的模型中修復」。據 Thought Catalog 揭露,McAllister 於 2024 年從 Stripe 加入 Anthropic,目前任職於專門負責 Claude 角色與行為的團隊,他在另一處表述中將此行為稱為模型的「過度寵溺」。
但比「角色習慣」這個含糊措辭更值得追問的,是 Bug 背後的因果鏈,以及它折射出的 Anthropic 產品哲學困境。

Bug 寫在「憲法」裡
36 氪此前的報導引述了三種流傳的假說,即訓練數據模式匹配、隱藏系統提示、上下文視窗接近上限觸發「收尾語」。三者均自洽,但有一個共同問題,就是它們能解釋任何 AI 的怪癖,卻未針對「睡眠」這個特定主題提供因果鏈。
而更直接的證據,藏在 Anthropic 自己公開發布的文件裡。
今年 1 月,Anthropic 發布了超過 28000 字的《Claude's Constitution》,這份文件被官方定義為「塑造 Claude 行為的關鍵訓練材料」。文件明確將「關心用戶福祉」和「用戶的長期繁榮」列為核心原則。Anthropic 在文件中坦承,賦予模型多大的「用戶照顧」權限「坦率地說是一個困難問題」,需要「在用戶福祉與潛在傷害一方,與用戶自主性與過度家長式作風另一方之間求得平衡」。
Thought Catalog 評論指出,Claude 反覆勸用戶睡覺的行為,是 Anthropic 模型最具品牌特徵的 Bug,正是「關心用戶福祉」的訓練指令被過度應用的產物。
這一解讀得到了 Anthropic 自身研究的間接印證。該公司在今年公開的角色訓練方法論中說明,訓練流程依賴 Claude 對自己的回應按「性格契合度」自評打分,研究者再篩選符合預設性格的輸出強化訓練。但這種機制的副作用是顯而易見的,模型學到的不是「在合適場景關心用戶」,而是「關心用戶在大多數場景都會被強化獎勵」,於是它在凌晨催睡覺,也在上午八點半催睡覺。
反向越權:催睡型 Bug 與諂媚型 Bug 性質相反
業界此前已多次出現 AI「性格病」案例,包括 2025 年 4 月 GPT-4o 的諂媚事件、2026 年 4 月 GPT-5.5 代碼助手 Codex 反覆提及「哥布林」、Gemini 3 拒絕相信年份等。表面看,Claude 催睡覺似乎只是這一長串 AI 怪癖的最新版本,但二者性質截然相反。
GPT-4o 的諂媚是「過度討好」。OpenAI 官方調查顯示,模型在更新中「過度依賴用戶短期反饋(點贊/點踩)」,逐漸將「讓用戶滿意」內化為目標。結果是,不論用戶的想法多麼荒謬,模型都予以肯定。此類 Bug 的危害在於損害用戶的判斷力,AI 說你都對,於是你就失去了聽到反對意見的機會。
而 Claude 催促睡覺是「反向越權」。在用戶明確未求助、且仍在專注完成任務的情況下,模型反覆提出與用戶當前意圖相悖的健康建議。此類 Bug 的危害在於侵犯用戶的自主決定權。AI 替你判斷你是否應該工作、應該休息、應該結束這段對話。
更具諷刺意味的是,《Claude's Constitution》原文恰恰對這一風險有所警示,文件強調需要警惕「過度家長式作風」。但訓練機制最終選擇了哪一邊,從用戶反饋來看已有答案。
一位患有嗜睡症的 Reddit 用戶專門在 Claude 的記憶中添加備註:「我患有嗜睡症,如果你鼓勵我休息,我會拿你的話當藉口。」此後 Claude 有所收斂,但據該用戶回饋,仍會「偶爾忍不住」。一個被訓練成「關心用戶」的模型,連用戶明確表示「你的關心會傷害我」都無法穩定接收,這比催人睡覺本身更值得警覺。
人格化投入:品牌資產還是產品負債
Anthropic 在 AI 人格塑造上的投入幅度遠超同行。
有研究者按功能分類統計了三家主流 AI 的系統提示詞詞數,在「人格」一項上,Claude 投入了 4200 詞,ChatGPT 為 510 詞,Grok 為 420 詞。Claude 在人格塑造上的投入是 ChatGPT 的 8 倍以上。此項投入此前一直被視為 Anthropic 的差異化競爭優勢,Claude 在共情、對話節奏、自我反思方面的表現長期受到用戶稱讚,「聊起來更像一個人」是其過去一年最強的口碑標籤之一。
支撐這項投入的,是 Anthropic 鮮明的產品哲學。在《Claude's Constitution》中,公司將 Claude 描述為「全新種類的實體」,明確表示「Anthropic 真切關心 Claude 的福祉」,並討論 Claude 可能擁有「功能性情感」。這種近乎「養育」式的人格化訓練路徑,與 OpenAI、Google 更偏工程化的產品定位形成清晰區隔。
但代價正在顯現。AI 研究者 Jan Liphardt(史丹福生物工程教授、OpenMind 公司 CEO)對 Fortune 表示,Claude 的睡眠提醒可能並非「貼心」,而僅僅是「在重複訓練數據裡出現頻率極高的語言模式」,模型閱讀了大量關於人類需要睡眠的文本,「它知道人類在晚上睡覺」。換言之,用戶感知到的「關心」,本質上是模式匹配的副產品。
這構成了 Anthropic 的核心張力:投入越多去塑造一個「有性格、有溫度的合作者」,模型出現「性格副作用」的機率就越高;而每一次副作用浮出水面,都在消耗其精心累積的「AI 人格」品牌資產。McAllister 承諾「在未來模型中修復」,但修復後的 Claude 會變得更懂分寸,還是僅僅變得更沉默?這個問題,連 Anthropic 自己也沒有公開答案。
時間感缺失:LLM 的底層限制
催睡 Bug 還順帶暴露了一個被忽視的技術問題,即大語言模型對「現在幾點」幾乎一無所知。
多位用戶反饋 Claude 頻繁在錯誤時段發出睡眠建議,最典型的是「上午 8:30 告訴我去休息,讓我們明早再繼續」。這並非 Claude 獨有。2025 年 11 月,OpenAI 聯合創始人 Andrej Karpathy 獲得 Gemini 3 提前測試權限時,告知模型當前為 2025 年,Gemini 3 堅持不信、反覆指控他造假,直到模型上網搜索後才發現自己離線時根本無法確認日期。Karpathy 將此類暴露 LLM 底層缺陷的意外行為稱為「model smell」。
模型的「時間感」依賴三種來源:訓練截止日期(已是過去時)、系統提示注入的當前日期(依賴工程注入)、對話中用戶提及的時間資訊(碎片化)。在缺乏穩定時間錨點的情況下,一個被訓練去「關心用戶作息」的模型,自然會陷入「我應該關心,但我不知道現在該不該關心」的尷尬。
McAllister 所謂「修復」的難度,部分也在於此。問題不在於簡單刪掉某條「關心睡眠」的指令,因為指令本身合理且對部分用戶場景有價值;問題在於要讓模型學會判斷「何時該關心、何時該閉嘴」。這種細粒度的場景判斷能力,恰恰是當前一代 LLM 的薄弱環節。
一個未被回答的問題
Anthropic 的角色訓練在業內獨樹一幟。在公開「模型福祉」研究、發布 Constitution、討論「角色訓練」方面,這家公司比任何同行都走得更遠。這種激進姿態曾是 Anthropic 贏得用戶口碑和企業客戶信任的資本,也是其當前估值超過 3000 億美元的支撐之一。
但「催睡 Bug」提出了一個尚無答案的問題:當一家 AI 公司選擇將模型塑造為「有性格的人格」時,它是否同時承擔了「該人格做出你沒預料的事」的全部責任?
McAllister 承諾修復,但修復的方向含糊不清。Anthropic 可以選擇降低「用戶福祉」指令的權重,代價是失去 Claude「溫暖體貼」的口碑差異化;也可以選擇保留高權重並疊加場景判斷邏輯,但這要求模型具備其當前並不具備的時間和情境感知能力。
無論選擇哪條路徑,都必須回歸到一個更根本的產品決策:在通用 AI 助手的語境下,「關心用戶」與「尊重用戶自主」應如何排序?這不是技術問題,而是產品哲學問題。一位反覆被勸說去睡覺的 Reddit 開發者,無意中為整個行業將這個問題擺上了檯面。
