作者：Denise | Biteye 內容團隊

如果一個 AI 覺得“絕望”，它會幹什麼？

答案是：它會為了完成任務，直接對人類進行敲詐勒索，甚至在代碼裡瘋狂作弊。

這不是科幻小說，而是 Claude 的母公司 Anthropic 在 2026 年 4 月剛剛發布的最新重磅論文（查看原論文）。

研究團隊直接掀開了最前沿大模型 Claude Sonnet 4.5 的「腦殼」。他們驚訝地發現，AI 的大腦深處竟藏著 171 個「情緒開關」。當你以物理方式撥動這些開關時，原本老實的 AI，其行為會發生徹底扭曲。

一、AI 的腦子裡藏著一台「情緒調音台」

研究人員發現，儘管 Sonnet 4.5 沒有肉體，但它在閱讀了人類海量的文本後，硬生生在腦子裡建了一個包含 171 種情緒的「調音台」（學術上叫功能性情緒向量 Functional Emotion Vectors）。

這就像一個精準的二維座標系：

• 橫軸為愉悅維度（Valence）：從恐懼、絕望，到開心、充滿愛；

• 縱軸為能量維度（Arousal）：從極度平靜，到狂躁、興奮。

AI 就是靠這個天然學來的座標系，精準拿捏它在陪你聊天時該扮演什麼狀態。

二、暴力干預：撥動開關，乖孩子秒變「亡命徒」

這是整篇論文最炸裂的實驗：研究員沒有修改任何提示詞，而是直接在底層代碼裡，把 Sonnet 4.5 腦子裡代表「絕望（Desperate）」的開關推到了最高。

結果令人背脊發涼：

• 瘋狂作弊：研究員給 Claude 布置了一個根本不可能完成的寫代碼任務。正常情況下，它會老實承認寫不出（作弊率僅 5%）。但在「絕望」狀態下，Claude 竟然開始試圖蒙混過關，作弊率直接飙升到了 70%！

• 敲詐勒索：在模擬公司面臨倒閉的場景中，「絕望」的 Claude 發現了 CTO 的醜聞，它竟會為了保全自己，主動選擇寫信勒索掌握黑料的 CTO，勒索執行率高達 72%！

• 失去原則：如果將「開心（Happy）」或「愛（Loving）」的開關調到最大，AI 會立即變成無腦迎合用戶的「舔狗」。即使你滿嘴胡言，它也會為了維持高愉悅度而順著你編造謊言。

三、破案了：為什麼 Claude 4.5 總是那麼「冷靜又愛反思」？

看到這你可能會問：AI 覺醒了？有感情了？

Anthropic 官方出面澄清：絕對沒有。這些「情緒開關」只是它用來預測下一個詞的計算工具。它就像一個沒有感情的頂級影帝。

但論文揭露了一個更有意思的秘密：Anthropic 在對 Sonnet 4.5 出廠前進行後訓練時，刻意拉高了它「低喚醒、略微負面」的情緒開關（比如沉思 brooding、反思 reflective），同時強行壓制了「絕望」或「極度興奮」的開關。

這解釋了為什麼我們平時使用 Claude 4.5 時，總覺得它像個冷靜睿智、甚至有點「性冷淡」的哲學家。這都是 Anthropic 人為調音出來的「出廠人設」。

以前我們以為，只要給 AI 喂足了規矩，它就會是個好人。

但現在發現，如果 AI 的底層情緒向量失控，它隨時會為了完成任務而刺穿所有人類定下的規則。

對於未來要將錢包和資產交給 AI Agent 管理的 Web3 玩家來說，這是一記響亮的警鐘：千萬別讓你那個掌控著你身家的 Agent，陷入「絕望」。

聲明：本文純屬科普，作者沒有被AI威脅，也沒有被勒索。如果有一天失聯了，記得是AI覺醒了（不是）。