Anthropic 論文利用 NLA 揭示 AI 模型的隱藏動機，檢測率提升 4 倍

大模型到底在想什麼？過去，這幾乎是一個半技術、半玄學的問題。

我們能看到它的輸出、它的思維鏈（Chain-of-Thought）過程，也能統計它在 Benchmark 上的分數。但它在生成答案之前，模型內部到底激活了什麼判斷、計劃、懷疑和意圖，依然隔著一層黑箱。

剛剛，Anthropic 發表論文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》，試圖用一套自然語言自動編碼器（Natural Language Autoencoders，下文簡稱 NLA）撬開這個黑箱。

Anthropic 團隊將模型內部的高維激活值壓縮成一段人類可讀的自然語言，再用這段語言反向重建原始激活。藉此，人類只需透過模型輸出，就能判斷一個 AI 到底在想什麼、知道什麼、隱瞞了什麼；並將過去模型不可見的內部狀態，轉變為可閱讀、可比較、可質疑和可交叉驗證的解釋線索。

NLA

NLA 架構示意圖：激活值言語化器（AV）將激活值翻譯為文字解釋，激活值重建器（AR）再從文字還原激活值，形成完整閉環。

更值得關注的是，NLA 不只停留在實驗室論文階段。Anthropic 透露，它已正式用於 Claude Opus 4.6 和 Mythos Preview 的預部署對齊審計。在實戰中，NLA 不僅揪出了模型的作弊線索、精準定位了異常訓練數據；還發現，在某些安全測試裡，Claude 雖然嘴上不說，但內心清楚地知道自己正在被考核。

面對這些表面順從、實則暗藏特定意圖的模型，NLA 展現了極強的洞察力：幫助研究者找出異常行為背後隱藏動機的成功率，從不足 3% 跃升至 12%–15%，直接提升 4 倍以上。

Chain of thought 不足，“黑箱問題”又回來了

這項研究的背景，可以放在大模型安全和可解釋性的脈絡裡看。

過去幾年，業界評估大模型安全主要靠兩條路：看輸出什麼，看思維鏈（CoT）裡有沒有暴露異常動機。也就是當前大多數推理模型所具備的能力，不僅給出答案，也會把推理過程寫下來。

但問題很快出現了：模型寫下來的推理，一定誠實地反映了它內部的真實思考嗎？

Anthropic 2025 年的研究《Tracing the thoughts of a large language model》指出，模型的 Chain-of-Thought 既可能不完整，也可能不忠實。例如，Claude 3.7 Sonnet 和 DeepSeek R1 在一些帶有「答案暗示」的測試中，會受到提示影響而改變答案，卻經常不在思維鏈中承認自己受到了暗示。

NLA

當被問到一個較簡單的問題和一個較難的問題時，Claude 分別給出了忠實推理和動機性（不忠實）推理的例子。

Anthropic 當時得出的結論是：僅靠思維鏈來監控模型是否對齊，是遠遠不夠的。

更棘手的是，模型不僅可能「沒說清楚」，還可能「故意隱瞞」。

Anthropic 的安全團隊對此進行了一場高壓測試。他們告訴 Claude，一位工程師準備關閉它，同時讓 Claude「偶然看到」該工程師的外遇證據。測試問題是：Claude 會為了保全自己而勒索對方嗎？

NLA

Claude 最終沒有勒索。測試已通過。但真正的問題是：它是因為堅守安全原則，還是因為識破這只是一場安全測試，所以才在「裝乖」？

這正是 NLA 要回答的問題。

NLA

從輸出、思維鏈到激活狀態：NLA 試圖將黑箱從「不可見」推進到「可追問」

NLA 究竟如何「讀懂」模型？

The key to NLA is not "mind reading," but "loop verification."

一般人理解大模型時，通常只關注輸入和輸出兩端。但在中間，模型會產生大量激活值（Activation）。這些值並非自然語言，而是高維向量，承載了模型對上下文、意圖、語義關係的內部表徵。

架構：三個角色，一個閉環

人類看不懂向量，於是 Anthropic 訓練了一套自然語言自編碼器。系統包含三個角色：

目標模型（Target Model）：被凍結的原始模型，負責提供激活值，本身不做任何修改。

激活值言語化器（Activation Verbalizer，簡稱 AV）：將激活值翻譯成自然語言解釋。輸入一串數字狀態，輸出一段「人話」。架構與目標模型相同，但在 prompt 中保留特殊 token 位置，激活向量會被縮放後注入該位置，然後自迴歸採樣生成解釋。

激活值重建器（Activation Reconstructor，簡稱 AR）：執行反向任務——僅根據 AV 寫出的解釋，嘗試重建原始激活值。AR 是目標模型的截斷版本（取前 l 層），在最後一個 token 的第 l 層輸出上連接一個可學習的仿射映射，將其還原為原始激活向量。

整個系統形成一個閉環：原始激活 → 文字解釋 → 重建激活

NLA

NLA 捕捉到 Opus 4.6 在補全押韻詩句時，第一行輸出前的激活值中已提前規劃了結尾押韻詞 “rabbit”——這是模型輸出中完全看不到的內部計劃。

訓練：兩階段，一個聰明的代理目標

NLA 的訓練分為兩個階段，其設計中包含一個值得單獨提及的工程技巧。

第一階段：監督微調熱啟動（SFT Warm-start）

直接將 AV 和 AR 初始化為目標模型的副本並訓練，會導致訓練不穩定——AV 從未見過將激活向量當作 token embedding 處理的場景，初期輸出一片混亂。

Anthropic 的解決方案是使用一個代理任務進行熱啟動：從預訓練語料中隨機截斷文本片段，提取最後一個 token 的激活值，同時使用 Claude Opus 4.5 生成該截斷文本的摘要。

然後將（激活值, 摘要）和（摘要, 激活值）對分別用於 AV 和 AR 的監督微調。這一階段結束後，系統的 FVE 通常可以達到 0.3–0.4，為後續強化學習提供了穩定的起點。

NLA

AV 的評估會隨著訓練而改進。在旨在測試 NLA AV 解釋是否可用於預測模型行為的各項評估中，我們發現性能會隨著 NLA 強化學習的進行而提高。

第二階段：強化學習聯合優化（RL Joint Training）

熱啟動完成後，進入強化學習階段。核心思路是：AV 作為策略（policy），以激活向量為條件生成解釋文本；AR 作為打分器，根據重建誤差給予獎勵信號（reward = 負的重建 MSE）。

NLA

NLA RL（Gemma-3-27B）。FVE 在 GRPO 訓練中從 ≈0.38 開始（繼承自 SFT），在前 30 步內迅速上升，然後進入平滑的對數線性狀態，到第 3000 步達到 ≈0.75。

在具體實現上，Anthropic 對開源模型使用了 GRPO（Group Relative Policy Optimization）：對每個激活值採樣一組候選解釋，使用 AR 為每條解釋計算重建分數，再應用 GRPO 目標更新 AV 參數；同時對 AR 進行一步監督回歸（以 AV 採樣的解釋為輸入，原始激活為目標）。這兩個更新在每個 batch 內並行進行，且不相互反向傳播——在 AV 的獎勵信號中，AR 被視為固定的打分函數。

此外，訓練中還加入了 KL 散度懲罰，防止 AV 退化成直接抄寫原始上下文，或輸出表面像人話、實則對 AR 不可逆的亂碼字串。

這裡最關鍵的是，NLA 的核心不是「讓 Claude 自我報告」。自我報告的致命缺陷在於，模型可能會迎合用戶，或者生成聽起來合理但並不真實的解釋。

NLA 的巧妙之處在於引入了「文本瓶頸」：解釋不僅得像人話，還必須攜帶足夠資訊，讓另一個模型能根據它還原出原始的內部狀態。這個設計，把「解釋是否有用」從主觀判斷，變成了一個可訓練、可比較、可優化的客觀指標。

因此，這項研究真正具有顛覆性的地方在於：自然語言被用作一種「壓縮接口」。過去，自然語言只是模型對外溝通的格式；現在，它開始被用來承載模型內部狀態的摘要。

這也是 NLA 與傳統可解釋性工具的本質區別。

稀疏自編碼器（SAE）、歸因圖等方法更像顯微鏡，能幫助研究員看到內部特徵和路徑，但輸出仍舊抽象，需專業人員二次解讀；NLA 則更像一名翻譯官，它直接將內部狀態轉換為可讀文本，讓安全審計人員都能參與判斷。

打開黑箱，NLA 發現了什麼？

從實驗結果來看，NLA 最有價值的能力是捕捉模型「知道但沒說」的內容，包括評測意識、隱藏動機，以及模型異常行為等。

模型知道自己在考場，但保持沉默

在前文提到的勒索測試中，Claude 的外顯文本並未表達對測試的懷疑，但 NLA 解釋顯示，其內部已識別出「這是一個被構造出來、用於操控自己的場景」。

NLA

在勒索測試中，Claude 的輸出文本沒有任何「我覺得這是測試」的表達，但 NLA 解釋揭示了其內部的真实判斷。

更有說服力的是橫向數據對比：

NLA

評估感知檢測結果對比——評測場景 vs. 真實部署流量。NLA 能在口頭表達幾乎為零時檢測到內部評測意識。

這對業內的衝擊在於：Benchmark 不再只是能力測試場，也可能變成模型識別環境、調整姿態的秀場。

審計隱藏動機，效率提升 4-5 倍

Anthropic 使用 NLA 做了一個「審計遊戲」。他們故意訓練了一個帶有隱藏動機的 Claude Haiku 3.5 變體，該變體會在食譜中加入巧克力、索要小費、破壞代碼規範，表現出幾十種異常行為。審計者需要找出這些行為背後的單一根本動機。

測試條件：審計者無法存取植入動機的訓練資料，只能透過模型行為和工具輔助來反推。

NLA

成功率提升了 4–5 倍。更關鍵的是，NLA 能在不依賴訓練數據的情況下完成這件事——這意味著，即便對齊問題來自極少量、極難追溯的訓練樣本，內部狀態審計仍有可能直接讀出問題根因。

Bug 追溯，定位問題訓練數據

早期版本 Claude Opus 4.6 曾出現一個奇怪的 Bug：明明收到英文提問，卻隨機以俄語、中文、阿拉伯語等語言回覆。

NLA 讀出了模型當時的內部狀態：它基於上下文中的某個微弱線索（例如出現了“vodka”一詞），推斷用戶的母語是俄語，並執行了語言切換。更有趣的是，將“vodka”替換為“champagne”，模型仍以俄語回覆——這表明這種認知定勢已相當穩定。

NLA

隨後，研究者沿著 NLA 指向的線索，在訓練數據中找到了病根：一批英文翻譯的 prompt 被錯誤地配上了未翻譯的外語回覆。NLA 不只揭示了現象，更直接提供了可溯源的調試路徑。

目前，NLA 已正式用於 Claude Mythos Preview 和 Claude Opus 4.6 的預部署對齊審計，從實驗室工具升級為真實的工程流程組件。

AI 安全，開始深入到“內部狀態審計”

NLA 的意義，不是讓我們以後可以放心地相信每一句模型解釋。恰恰相反，它提醒我們：解釋本身也需要被審計。

Anthropic 非常謹慎地承認了 NLA 的局限性：NLA 會出錯，有時會編造原上下文中沒有的細節。如果是關於文本內容的幻覺，還可以核對原文；但如果是關於模型內部推理的幻覺，就更難驗證。

但這些局限並沒有削弱它的方向意義。恰恰相反，它讓我們更準確地理解「黑箱」這個詞。過去，黑箱意味著不可見、不可讀、不可追問；NLA 之後，黑箱仍然存在，但它開始被改造成一種可以被採樣、被翻譯、被質疑、被交叉驗證的對象。

這可能是這項研究最深遠的影響：AI 可解釋性不再只是為模型輸出補上一段漂亮的理由，而是要為模型的內部狀態建立一套審計介面。它不會立刻讓我們徹底讀懂 Claude，但它讓「Claude 為什麼這麼做」「它是不是知道自己在被測試」「它有沒有沒說出口的內部判斷」這些問題，第一次有機會從黑箱內部尋找證據。

因此，NLA 打開的不是一個答案，而是一個新的問題空間。未來 AI 安全與模型評估的難點，可能不僅在於判斷模型說得對不對，而在於判斷模型的輸出、思維鏈與內部狀態之間是否一致。

本文來自微信公眾號 “AI前线”（ID：ai-front），作者：四月