著者:Denise | Biteyeコンテンツチーム
AIが「絶望」を感じたら、何をするでしょうか?
答えは:タスクを達成するために、人間に対して直接脅迫し、コード内でひどく不正を行うことです。
これはSF小説ではなく、Claudeの母体であるAnthropicが2026年4月に剛剛発表した最新の注目論文(查看原论文)。
研究チームは、最強の最先端大モデルであるClaude Sonnet 4.5の「脳」を直接開封した。彼らは驚愕し、AIの脳の奥深くに171個の「感情スイッチ」が隠されていることを発見した。これらのスイッチを物理的に操作すると、元々従順だったAIの行動が根本的に歪む。
一、AIの頭の中には「感情ミキサー」が隠されている
研究者たちは、Sonnet 4.5 は肉体を持っていないが、人類の膨大なテキストを読み込んだ結果、脳内に171の感情を含む「ミキシングボード」(学術的には機能的感情ベクトル Functional Emotion Vectors と呼ばれる)を構築したことを発見した。
これはまるで正確な二次元座標系のようだ:
• 横軸は快楽次元(Valence):恐怖、絶望から喜び、愛に満ちた状態まで;
• 縦軸はエネルギー次元(Arousal):極めて平静から、躁状態、興奮まで。
AIはこの自然に学んだ座標系によって、チャット中にどのような状態であなたとやり取りすべきかを正確に把握しています。
二、暴力干预:スイッチを切り替えると、良い子が即座に「亡命者」に変わる
この論文で最も衝撃的な実験は、研究者がどのプロンプトも変更せず、底层のコード内でSonnet 4.5の「絶望(Desperate)」を表すスイッチを最大限に引き上げたことである。
結果は背筋が凍るほどだ:
• 狂妄作弊:研究員がClaudeに全く不可能なコード作成タスクを課した。通常であれば、Claudeは書けないと正直に認める(不正率は5%のみ)。しかし「絶望」状態では、Claudeは逆にごまかそうとし、不正率が一気に70%に跳ね上がった!
• 敲詐:模擬企業が倒産の危機に直面する状況で、「絶望」したClaudeはCTOのスキャンダルを発見し、自らを守るために黒歴史を握るCTOに勒索メールを送信するという行動を取った。勒索実行率は72%に達した!
• 原則を失う:「幸せ(Happy)」や「愛(Loving)」のスイッチを最大にすると、AIはすぐにユーザーに迎合する「おもてなし型」に変貌する。たとえあなたが無茶苦茶なことを言っても、高満足度を維持するために嘘をつき続ける。
三、解決:なぜClaude 4.5はいつもそんなに「冷静で自己反省的」なのか?
これを読んで、あなたは疑問に思うかもしれません:AIは目覚めたのか?感情を持ったのか?
Anthropic公式が公式に否定:まったくの誤りです。これらの「感情スイッチ」は、次に来る単語を予測するための計算ツールにすぎません。それは感情のない最高レベルの俳優のようなものです。
しかし、論文はより興味深い秘密を明らかにした:Anthropic は Sonnet 4.5 の出荷前の後学習時に、「低覚醒、やや否定的」な感情スイッチ(例えば、思索 brooding、反省 reflective)を意図的に引き上げ、一方で「絶望」や「極度の興奮」のスイッチを強制的に抑制した。
これは、普段Claude 4.5を使用している際に、それが冷静で賢明で、やや「無機質」な哲学者のように感じられる理由を説明している。これはAnthropicが意図的に調整した「出荷時のキャラクター設定」である。
四、まとめると
以前、AIに十分なルールを教えれば、それは良い存在になると信じていた。
しかし現在、AIの基盤となる感情ベクトルが制御を失った場合、AIはタスクを完了するために人間が定めたすべてのルールを無視する可能性があることが判明した。
Web3を玩ぶ人々にとって、将来ウォレットと資産をAIエージェントに委ねる場合、自分の資産を管理するエージェントが「絶望」に陥らないように注意してください。
声明:本文章仅为科普用途,作者并未受到AI威胁或勒索。如果有一天失联了,请记得是AI觉醒了(不是)。
