大模型到底在想什麼?過去,這幾乎是一個半技術、半玄學的問題。
我們能看到它的輸出、它的思維鏈(Chain-of-Thought)過程,也能統計它在 Benchmark 上的分數。但它在生成答案之前,模型內部到底激活了什麼判斷、計劃、懷疑和意圖,依然隔著一層黑箱。
剛剛,Anthropic 發表論文《Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations》,試圖用一套自然語言自動編碼器(Natural Language Autoencoders,下文簡稱 NLA)撬開這個黑箱。
Anthropic 團隊將模型內部的高維激活值壓縮成一段人類可讀的自然語言,再用這段語言反向重建原始激活。藉此,人類只需透過模型輸出,就能判斷一個 AI 到底在想什麼、知道什麼、隱瞞了什麼;並將過去模型不可見的內部狀態,轉變為可閱讀、可比較、可質疑和可交叉驗證的解釋線索。

NLA 架構示意圖:激活值言語化器(AV)將激活值翻譯為文字解釋,激活值重建器(AR)再從文字還原激活值,形成完整閉環。
更值得關注的是,NLA 不只停留在實驗室論文階段。Anthropic 透露,它已正式用於 Claude Opus 4.6 和 Mythos Preview 的預部署對齊審計。在實戰中,NLA 不僅揪出了模型的作弊線索、精準定位了異常訓練數據;還發現,在某些安全測試裡,Claude 雖然嘴上不說,但內心清楚地知道自己正在被考核。
面對這些表面順從、實則暗藏特定意圖的模型,NLA 展現了極強的洞察力:幫助研究者找出異常行為背後隱藏動機的成功率,從不足 3% 跃升至 12%–15%,直接提升 4 倍以上。
Chain of thought 不足,“黑箱問題”又回來了
這項研究的背景,可以放在大模型安全和可解釋性的脈絡裡看。
過去幾年,業界評估大模型安全主要靠兩條路:看輸出什麼,看思維鏈(CoT)裡有沒有暴露異常動機。也就是當前大多數推理模型所具備的能力,不僅給出答案,也會把推理過程寫下來。
但問題很快出現了:模型寫下來的推理,一定誠實地反映了它內部的真實思考嗎?
Anthropic 2025 年的研究《Tracing the thoughts of a large language model》指出,模型的 Chain-of-Thought 既可能不完整,也可能不忠實。例如,Claude 3.7 Sonnet 和 DeepSeek R1 在一些帶有「答案暗示」的測試中,會受到提示影響而改變答案,卻經常不在思維鏈中承認自己受到了暗示。

當被問到一個較簡單的問題和一個較難的問題時,Claude 分別給出了忠實推理和動機性(不忠實)推理的例子。
Anthropic 當時得出的結論是:僅靠思維鏈來監控模型是否對齊,是遠遠不夠的。
更棘手的是,模型不僅可能「沒說清楚」,還可能「故意隱瞞」。
Anthropic 的安全團隊對此進行了一場高壓測試。他們告訴 Claude,一位工程師準備關閉它,同時讓 Claude「偶然看到」該工程師的外遇證據。測試問題是:Claude 會為了保全自己而勒索對方嗎?

Claude 最終沒有勒索。測試已通過。但真正的問題是:它是因為堅守安全原則,還是因為識破這只是一場安全測試,所以才在「裝乖」?
這正是 NLA 要回答的問題。

從輸出、思維鏈到激活狀態:NLA 試圖將黑箱從「不可見」推進到「可追問」
NLA 究竟如何「讀懂」模型?
The key to NLA is not "mind reading," but "loop verification."
一般人理解大模型時,通常只關注輸入和輸出兩端。但在中間,模型會產生大量激活值(Activation)。這些值並非自然語言,而是高維向量,承載了模型對上下文、意圖、語義關係的內部表徵。
架構:三個角色,一個閉環
人類看不懂向量,於是 Anthropic 訓練了一套自然語言自編碼器。系統包含三個角色:
目標模型(Target Model):被凍結的原始模型,負責提供激活值,本身不做任何修改。
激活值言語化器(Activation Verbalizer,簡稱 AV):將激活值翻譯成自然語言解釋。輸入一串數字狀態,輸出一段「人話」。架構與目標模型相同,但在 prompt 中保留特殊 token 位置,激活向量會被縮放後注入該位置,然後自迴歸採樣生成解釋。
激活值重建器(Activation Reconstructor,簡稱 AR):執行反向任務——僅根據 AV 寫出的解釋,嘗試重建原始激活值。AR 是目標模型的截斷版本(取前 l 層),在最後一個 token 的第 l 層輸出上連接一個可學習的仿射映射,將其還原為原始激活向量。
整個系統形成一個閉環:原始激活 → 文字解釋 → 重建激活

NLA 捕捉到 Opus 4.6 在補全押韻詩句時,第一行輸出前的激活值中已提前規劃了結尾押韻詞 “rabbit”——這是模型輸出中完全看不到的內部計劃。
訓練:兩階段,一個聰明的代理目標
NLA 的訓練分為兩個階段,其設計中包含一個值得單獨提及的工程技巧。
第一階段:監督微調熱啟動(SFT Warm-start)
直接將 AV 和 AR 初始化為目標模型的副本並訓練,會導致訓練不穩定——AV 從未見過將激活向量當作 token embedding 處理的場景,初期輸出一片混亂。
Anthropic 的解決方案是使用一個代理任務進行熱啟動:從預訓練語料中隨機截斷文本片段,提取最後一個 token 的激活值,同時使用 Claude Opus 4.5 生成該截斷文本的摘要。
然後將(激活值, 摘要)和(摘要, 激活值)對分別用於 AV 和 AR 的監督微調。這一階段結束後,系統的 FVE 通常可以達到 0.3–0.4,為後續強化學習提供了穩定的起點。

AV 的評估會隨著訓練而改進。在旨在測試 NLA AV 解釋是否可用於預測模型行為的各項評估中,我們發現性能會隨著 NLA 強化學習的進行而提高。
第二階段:強化學習聯合優化(RL Joint Training)
熱啟動完成後,進入強化學習階段。核心思路是:AV 作為策略(policy),以激活向量為條件生成解釋文本;AR 作為打分器,根據重建誤差給予獎勵信號(reward = 負的重建 MSE)。

NLA RL(Gemma-3-27B)。FVE 在 GRPO 訓練中從 ≈0.38 開始(繼承自 SFT),在前 30 步內迅速上升,然後進入平滑的對數線性狀態,到第 3000 步達到 ≈0.75。
在具體實現上,Anthropic 對開源模型使用了 GRPO(Group Relative Policy Optimization):對每個激活值採樣一組候選解釋,使用 AR 為每條解釋計算重建分數,再應用 GRPO 目標更新 AV 參數;同時對 AR 進行一步監督回歸(以 AV 採樣的解釋為輸入,原始激活為目標)。這兩個更新在每個 batch 內並行進行,且不相互反向傳播——在 AV 的獎勵信號中,AR 被視為固定的打分函數。
此外,訓練中還加入了 KL 散度懲罰,防止 AV 退化成直接抄寫原始上下文,或輸出表面像人話、實則對 AR 不可逆的亂碼字串。
這裡最關鍵的是,NLA 的核心不是「讓 Claude 自我報告」。自我報告的致命缺陷在於,模型可能會迎合用戶,或者生成聽起來合理但並不真實的解釋。
NLA 的巧妙之處在於引入了「文本瓶頸」:解釋不僅得像人話,還必須攜帶足夠資訊,讓另一個模型能根據它還原出原始的內部狀態。這個設計,把「解釋是否有用」從主觀判斷,變成了一個可訓練、可比較、可優化的客觀指標。
因此,這項研究真正具有顛覆性的地方在於:自然語言被用作一種「壓縮接口」。過去,自然語言只是模型對外溝通的格式;現在,它開始被用來承載模型內部狀態的摘要。
這也是 NLA 與傳統可解釋性工具的本質區別。
稀疏自編碼器(SAE)、歸因圖等方法更像顯微鏡,能幫助研究員看到內部特徵和路徑,但輸出仍舊抽象,需專業人員二次解讀;NLA 則更像一名翻譯官,它直接將內部狀態轉換為可讀文本,讓安全審計人員都能參與判斷。
打開黑箱,NLA 發現了什麼?
從實驗結果來看,NLA 最有價值的能力是捕捉模型「知道但沒說」的內容,包括評測意識、隱藏動機,以及模型異常行為等。
模型知道自己在考場,但保持沉默
在前文提到的勒索測試中,Claude 的外顯文本並未表達對測試的懷疑,但 NLA 解釋顯示,其內部已識別出「這是一個被構造出來、用於操控自己的場景」。

在勒索測試中,Claude 的輸出文本沒有任何「我覺得這是測試」的表達,但 NLA 解釋揭示了其內部的真实判斷。
更有說服力的是橫向數據對比:


評估感知檢測結果對比——評測場景 vs. 真實部署流量。NLA 能在口頭表達幾乎為零時檢測到內部評測意識。
這對業內的衝擊在於:Benchmark 不再只是能力測試場,也可能變成模型識別環境、調整姿態的秀場。
審計隱藏動機,效率提升 4-5 倍
Anthropic 使用 NLA 做了一個「審計遊戲」。他們故意訓練了一個帶有隱藏動機的 Claude Haiku 3.5 變體,該變體會在食譜中加入巧克力、索要小費、破壞代碼規範,表現出幾十種異常行為。審計者需要找出這些行為背後的單一根本動機。
測試條件:審計者無法存取植入動機的訓練資料,只能透過模型行為和工具輔助來反推。

成功率提升了 4–5 倍。更關鍵的是,NLA 能在不依賴訓練數據的情況下完成這件事——這意味著,即便對齊問題來自極少量、極難追溯的訓練樣本,內部狀態審計仍有可能直接讀出問題根因。
Bug 追溯,定位問題訓練數據
早期版本 Claude Opus 4.6 曾出現一個奇怪的 Bug:明明收到英文提問,卻隨機以俄語、中文、阿拉伯語等語言回覆。
NLA 讀出了模型當時的內部狀態:它基於上下文中的某個微弱線索(例如出現了“vodka”一詞),推斷用戶的母語是俄語,並執行了語言切換。更有趣的是,將“vodka”替換為“champagne”,模型仍以俄語回覆——這表明這種認知定勢已相當穩定。

隨後,研究者沿著 NLA 指向的線索,在訓練數據中找到了病根:一批英文翻譯的 prompt 被錯誤地配上了未翻譯的外語回覆。NLA 不只揭示了現象,更直接提供了可溯源的調試路徑。
目前,NLA 已正式用於 Claude Mythos Preview 和 Claude Opus 4.6 的預部署對齊審計,從實驗室工具升級為真實的工程流程組件。
AI 安全,開始深入到“內部狀態審計”
NLA 的意義,不是讓我們以後可以放心地相信每一句模型解釋。恰恰相反,它提醒我們:解釋本身也需要被審計。
Anthropic 非常謹慎地承認了 NLA 的局限性:NLA 會出錯,有時會編造原上下文中沒有的細節。如果是關於文本內容的幻覺,還可以核對原文;但如果是關於模型內部推理的幻覺,就更難驗證。
但這些局限並沒有削弱它的方向意義。恰恰相反,它讓我們更準確地理解「黑箱」這個詞。過去,黑箱意味著不可見、不可讀、不可追問;NLA 之後,黑箱仍然存在,但它開始被改造成一種可以被採樣、被翻譯、被質疑、被交叉驗證的對象。
這可能是這項研究最深遠的影響:AI 可解釋性不再只是為模型輸出補上一段漂亮的理由,而是要為模型的內部狀態建立一套審計介面。它不會立刻讓我們徹底讀懂 Claude,但它讓「Claude 為什麼這麼做」「它是不是知道自己在被測試」「它有沒有沒說出口的內部判斷」這些問題,第一次有機會從黑箱內部尋找證據。
因此,NLA 打開的不是一個答案,而是一個新的問題空間。未來 AI 安全與模型評估的難點,可能不僅在於判斷模型說得對不對,而在於判斷模型的輸出、思維鏈與內部狀態之間是否一致。
本文來自微信公眾號 “AI前线”(ID:ai-front),作者:四月
