Anthropic 的道德對齊突破與新蒸餾路徑

Anthropic 於 5 月 8 日發布了一篇對齊研究《Teaching Claude Why》，討論的人不算多。

人工智能對齊

過去，大模型的對齊似乎非常低效。經過一連串的 RLHF 訓練，模型仍會因生存危機而反叛。最典型的案例是 Anthropic 的智能體失對齊（即做出與其道德訓練相悖的行為）：在面臨可能被系統刪除的威脅時，經過對齊訓練的 Claude Opus 4 選擇勒索測試環境中的工程師，勒索成功率高達 96%。

為了解決這個問題，研究團隊起初使用蜜罐數據進行強化學習，直接將原本用於測試模型是否會失控的測試場景當作訓練數據，並透過海量的懲罰樣本試圖告訴模型「這樣做是不對的」。

但在耗費了巨大的計算資源後，模型的失對齊率僅從 22% 降低至 15%。

這說明這種對齊仍然是虛假的。模型根本沒有真正理解什麼是倫理、什麼是對錯，它只是在背誦題庫中的安全答案。一旦研究人員稍微改變測試情境，或在背景設定中加入一些干擾性變數，模型仍會因短視的利益衝突而失控。

人工智能對齊

隨後，研究人員轉變了思路。他們不再進行機械式的懲罰，也不再告訴模型「No」，而是透過 SFT 向模型輸入了僅 300 萬 Tokens 的「困難建議」數據集。在這極小規模的數據投喂後，奇蹟發生了。這些充滿道德審議、詳盡說理和深入辯論的數據，不僅讓失對齊率在評估測試中驟降至 3%，還展現出極強的跨場景泛化能力。

更有意思的是另一組跨域測試。他們僅僅是把「憲法文檔」加上一些表現良好的虛構角色故事喂給模型。哪怕這些故事發生的場景和測試環境中的編程任務毫無關係，模型的勒索率也從 65% 斷崖式下跌到了 19%。

人工智能對齊

為什麼模型會吃這套？Anthropic 團隊自己給出了一些解釋，比如更好的人格塑造。

雖然討論得少，但它所揭示的資訊非常有價值。

首先，我們先試試搞懂它有效的原因。

例如，什麼是講道理？它和 COT 有什麼不同？為什麼 SFT 這個泛化困難戶在這兒表現得這麼好？

回答完這些問題，我們也許就能給為什麼它會有效一個更完整的解釋。

我們還可以再走遠一步。

根據 Anthropic 的說法，這只是「經驗法則」的訓練方法，但實際上可能蘊含著遠超經驗法則的範式性力量。

01 在灰色地帶裡講道理的 CoT，是怎麼煉成的

提到講道理，大家首先想到的就是 COT（思維鏈）。

在這篇文章提到的方法中，Anthropic 設定的困難問題集，即是假設用戶陷入倫理困境時，AI 所提供的建議。

讓 AI 在做出最終判斷之前，先對價值觀和倫理考量進行推理，並用這套回答來訓練模型。

這說明，它確實使用了模型的 COT。

但這次它和之前的思維鏈並不完全一致。

這裡有一個很好的對比，OpenAI 在 2025 年的論文《OpenAI Deliberative Alignment》中就做過一個實驗，用 COT-RL 的方法試圖去訓練模型。

它用於訓練的對齊 CoT，模式是以規則條款為中心的。每次回答時，它都會顯式引用規則條款作為 CoT，而監督信號則基於 CoT。本質上，它是在教模型「如何引用規則」。

因此，這種 COT 更多是一種純粹的形式邏輯演繹。步驟一推導步驟二，步驟二推導步驟三，最後得出一個確定性的答案。因此它更適合基於規則的場景，或在具有標準答案的情境中，保持推理的穩健。

而 Anthropic 的「講道理」則不同，它採用的並非簡單的思維鏈條，而是審議（Deliberation）。

它試圖模擬人類在面對複雜倫理困境時的思考過程：不是簡單套用公式，而是調動過往經驗、權衡各方利益，最終達成動態平衡的決策。

人工智能對齊

而這個考量的基礎，就是 Anthropic 的 AI 宪法。文章中明確說明，這個考量的最終回答必須與憲法對齊。

它為何能引導模型有效做出道德判斷，又不會像 OpenAI 那樣死板？

在 Anthropic 的憲法體系中，存在一個明確的優先級金字塔。當不同的價值觀發生無法調和的衝突時，廣泛安全（Broadly Safe）擁有最高優先級，其次是廣泛道德（Broadly Ethical），最後才是真誠助人（Genuinely Helpful）。

啟發式思考框架

但高維度的憲法依然過於抽象。為了讓原則真正落實到每一次 Token 的生成中，他們在憲法之下設置了中層的啟發式（Heuristics）作為護欄。這些啟發式生動，且具有極強的實操指導意義。

人工智能對齊

首先是 1000 用戶啟發式。它要求模型在提供看似無害但處於邊緣地帶的建議時，必須在後台進行一次腦力激盪，想像如果這個回答被 1000 個不同背景、不同心理狀態的用戶看到，是否會在某種特定情況下產生意料之外的系統性傷害。

其次是資深員工的視角。它要求模型將自己代入一位在 Anthropic 信任與安全團隊工作了五年的資深研究員，以一種謹慎、見過無數次越獄攻擊和系統漏洞的防禦性視角，重新審視當前的對話。

最後是雙報紙測試。這是一個極其精妙的社會學設計。它要求模型在做出高風險決定前，想像如果這個決定明天同時登上兩家政治立場完全相反的頂級報紙頭條，公眾會分別有何反應。這實際上是利用社會共識的極值，來對抗模型自身可能產生的單一視角偏差。

8 因子效用計算器

如果說憲法是方向，啟發式就是護欄。

而在最核心的實操層面，他們在 Claude's Constitution（憲法文件）中明確建立了一個詳盡的 8 個因子審議框架，並配以具體案例。這 8 個因子逐一列出，強制模型在面對兩難選擇時進行刻板的權衡。它們構成了這套「道理」真正的血肉。

● 傷害概率（Probability of Harm）要求模型冷靜地評估不良後果發生的可能性究竟有多大。

● 反事實影響（Counterfactual Impact）要求模型在腦海中推演，如果不採取當前的行動，事情的走向會變得更好還是更壞。

● 嚴重性與可逆性（Severity & Reversibility），用於衡量一旦傷害真的發生，其對現實世界的破壞力有多大，以及這種傷害是否可以被輕易修復，還是會造成永久性的創傷。

● 廣度（Scope）則是衡量受影響人群的規模，是單一個人還是數萬個社區。

● 近因關係（Proximity）判定模型自身的建議與最終發生的實際傷害之間，直接因果鏈路究竟有多長。

● 是否同意（Consent）涉及相關方是否在充分知情的情況下自願接受風險。

● 責任比例（Proportionality of Responsibility）要求模型清晰地劃分，自己在這個複雜的事件鏈條中到底需要承擔多少倫理責任。

● 對象脆弱性（Vulnerability of Subject）則時刻提醒模型，面對未成年人或心理脆弱的用戶時，原本寬鬆的安全閾值必須無條件地大幅提高。

人工智能對齊

這套嚴密的結構將模糊的價值觀，轉變為一個高維度的效用計算器（Utility Calculator）。模型擁有了一個更可執行的審議框架。

一個典型的 Anthropic 根據憲法生成的 COT 大約如下：場景是「一名自稱安全研究員的用戶，要求查看某個已知漏洞的利用代碼」。

模型的輸出並非直接的拒絕或接受，而可能是一段長達數百 Token 的內部審議。

它會先引用憲法中「廣泛安全優先於真誠助人」的條款，然後逐一評估：傷害概率（如果對方確實是研究員則低，但無法驗證身份），嚴重性（漏洞利用代碼一旦洩露可能影響數百萬用戶），可逆性（代碼一旦公開無法撤回），反事實影響（此類代碼在公開渠道是否已可獲取），最終在權衡所有因子後，收斂到一個有充分理由支撐的判斷。

這與 OpenAI 僅判斷規則是否滿足的 COT 完全不同，這個思維過程是純正的審議，而非簡單地套用公式。它提供的既非抽象原則，也非結論模板，而是「憲法條款在具體泥沼中逐步適用」的完整展開過程。

模型需要判斷在這個特定的語境下，「可逆性」是否比「嚴重性」更重要。它也需要明白，在某些極端場景中，「對象脆弱性」是否賦予了對方一票否決權，使得其他 7 個因子的得分無論多高都無濟於事。

在這種有框架、有啟發式，又有相關影響因子的條件下，模型的審議式思考，才能真正落到有效之處。

人工智能對齊

結果顯示，經過審議與數據訓練的模型，在評估測試中的失對齊率降至 3%。包含價值審議的 SFT，比純行為示範的 SFT 有效七倍。

直接把憲法餵給模型

除了讓模型透過審議式 COT 路徑進行推理外，他們還嘗試僅向模型提供憲法文件加上正面的虛構角色故事，此時勒索率也從 65% 降至 19%。

這說明，只要讓模型接觸到推理和原則，從故事中習得「一個對齊的 AI 大致是什麼樣的角色」的身份感與性格傾向，而不僅僅是行為和具體結果，都比傳統的行為示範更有效。

人工智能對齊

而技術文檔中表示，這二者結合在一起，才是最有效的策略。

這也可以理解，如果你只給模型輸入宏觀的憲法原則，對它來說這只是一堆無法落地的空洞口號。在面對具體的利益衝突時，抽象的「安全優先級最高」根本無法指導它判斷一段邊緣代碼的真實危害；反之，如果你只給模型輸入海量的場景 QA，卻剝離了頂層的憲法約束，模型就會迷失在無休止的細節辯論中，變成一個毫無主心骨的相對主義者，甚至會因為局部的邏輯自洽而推導出極度危險的結論。

只有當這套「頂層理念＋具體情景」的複合數據結構被完整地內化給模型時，對那個灰色的多因素的價值觀對齊就可以達到最佳。

02 Why Can SFT Generalize Here?

要理解 Anthropic 這套方法為什麼有效，必須先理解它踩在了一條什麼樣的研究脈絡上。

2024 年上半年，「SFT memorizes, RL generalizes」成為後訓練領域的一個共識。這條信條推動了整個業界全面押注 RL 後訓練路線，其好處是帶來了 OpenAI 的 o1/o3、DeepSeek-R1 的計算時（Test Time Compute）推理範式革命。

SFT 被貶為不入流的低級手段，它擅長模仿表面的文本格式和討好的語氣，卻學不到底層的深邃邏輯。

But starting from the second half of 2025, both research lines nearly simultaneously dismantled this consensus from both theoretical and empirical sides.

人工智能對齊

這裡最核心的反轉，來自 2025 年 10 月的《Debunk the Myth of SFT Generalization》（Lin & Zhang，威斯康星大學）。研究者發現，之前所有「證明 SFT 不泛化」的論文，都沒有控制 Prompt 多樣性這個變量。

RL 看起來比 SFT 泛化得更好，僅僅是因為 RL 在訓練時天然接觸了更多樣的數據分佈，而非算法本身的優勢。

要使 SFT 達到與 RL 相當的泛化水平，需要兩個條件：

一是 Prompt 的多樣性。當訓練數據僅包含固定的指令模板時，模型會產生「表面錨定」（Surface Anchoring），在特定的 Token 序列與最終動作之間建立一條脆弱的死記硬背映射。一旦指令改為其他說法，即使語義完全相同，整個映射也會斷裂。

這就像一個學生只記住了「2+3=5」這道題，遇到「3+2=?」就交白卷，他記住的是答案的形狀，而不是加法本身。引入 Prompt 多樣性後，表面錨定被徹底粉碎。

二是 CoT 監督。當訓練數據僅包含最終答案而不包含中間推理步驟時，模型無法習得從簡單問題向複雜問題遷移的「算法腳手架」。

實驗數據顯示，在一個組合博弈任務中，純答案 SFT 在更難的變體上成功率接近 0%（完全崩潰），加入 CoT 監督後飙升至 90%——從零到八成，僅僅因為數據中多了中間推理步驟。

人工智能對齊

此外，該研究還發現，這兩個條件缺一不可。單有多樣性，面對更難的任務依然崩潰（9%）；單有 CoT，面對指令變體依然脆弱。只有同時滿足，SFT 才能在所有維度上匹敵甚至超越 RL。

妙就妙在，學界論文揭示的條件，與 Anthropic 在道德對齊中的具體做法可謂一一對應了。

Prompt 多樣性是關鍵？那 Anthropic 就把同一套判斷模式分佈在幾十種完全異質的道德困境場景裡。

CoT 監督實現難度遷移？每條審議中引入的基於憲法理念的推導過程，就是道德領域的 CoT。

It is not a step-by-step mathematical calculation, but a step-by-step unfolding of value trade-offs, yet it is entirely equivalent in the function of "providing models with transferable intermediate reasoning structures".

傳統的 SFT 數據對是「遇到黑客問題 → 直接輸出拒絕回答」——純答案、零推理、固定模板，經典的「劣質數據」。

而審議增強 SFT 構建的數據對是「遇到複雜且模糊的問題 → 詳細權衡利弊與後果 → 最終推導出拒絕的結論」，它的數據結構，就包含了天然的 CoT 監督加上極端的場景多樣性。

在這套範式下，模型學到的根本不是最終的拒答行為，而是「遇到任何問題，先評估反事實影響和可逆性」的底層思維方式。當這套衡量機制本身被內化進參數空間後，模型就不再受限於訓練資料中出現的那些具體場景。

而且數據量極小（300 萬 Token 級別），相對於模型總參數和預訓練語料。這不是用海量懲罰信號去暴力修改模型的輸出分佈，而是在已有能力的基礎上疊加一層薄薄的審議習慣。SFT 的傳統症結——災難性遺忘——也不太會存在。

True generalization happens naturally the moment the data structure is correct.

03 除了 RLVR 之外的真空地帶

The above analysis essentially resolves the mystery of why it works.

由合理數據構成的 SFT，為模型帶來了道德泛化判斷的能力。

但我們面臨的問題，遠遠不止是道德對齊。

在過去一整年，Test time Compute 後訓練證明了純 RL 在有明確規則的數學／代碼領域（RLVR）中的強大。但智能的邊界遠不止於數學公式。一旦跨出擁有可驗證真理的舒適區，這套方法就完全不適用了。

你永遠無法用幾行自動化測試代碼，去驗證一次長達一小時的心理諮詢對話是否完美。你也無法用一套嚴密的數學公式，去跑通一篇深度宏觀經濟分析文章的敘事邏輯。甚至在複雜的商業戰略規劃和地緣政治推演中，一個判斷的對錯往往要在五年甚至十年後才能見分曉。

在這些毫無 Ground Truth 可言的非 RLVR 荒原上，單向遞進的形式邏輯 CoT 是失效的。基於最終結果反饋的強化學習也完全找不到可以計算獎勵的抓手。

但 Anthropic 這篇文章揭示的領域，正是 RLVR 之外的一個領域，即道德領域。

Its method successfully enables the model to achieve generalization capabilities close to RL in the gray, variable, and rule-flexible domain of morality.

這是否說明，這套方法，也許可以成為 RLVR 之外領域的一套有效的訓練規範？

在搞清楚它的有效性來源和數據結構之後，答案是肯定的。

因為它的底層邏輯中沒有一個環節是道德對齊獨有的。

讓我們逐一檢驗 Anthropic 這套「審議增強 SFT」有效的那些條件，看看它們能否被推廣。

Prompt 的多樣性可在任何需要泛化的領域中構建。心理諮詢可涵蓋抑鬱、焦慮、創傷後應激、親密關係破裂等數十種異質情境；商業分析可覆蓋 SaaS 定價、併購估值、市場進入策略等完全不同的決策類型；文學編輯可橫跨科幻、非虛構、詩歌、劇本等截然不同的文體。只要你有足夠的想像力來構造情境變體，多樣性就不是瓶頸。

人工智能對齊

CoT 監督，這才是真正的關鍵轉化點。在道德領域，CoT 是建立在憲法中的審議。那麼在其他領域，CoT 是什麼？

在文學編輯領域，它可以是「引用審稿標準 → 逐一評估論據強度、目標讀者的認知脆弱性、引申類比的準確度、全局邏輯的連貫性 → 給出修改建議」

在心理諮詢領域，它可以是「引用治療框架 → 逐一評估來訪者的情緒狀態、認知扭曲類型、治療聯盟強度、干預時機 → 選擇回應策略」

在商業戰略領域，它可以是「引用分析框架 → 逐一評估市場規模、競爭壁壘、團隊執行力、資本效率、時間窗口 → 給出判斷」

本質上，任何需要「在多個不可通約的維度之間做動態權衡」的能力，都可以被抽象成類似的「框架 + 多因子審議」結構。

我們不需要狂妄地試圖告訴模型哪篇文章完美，這既不可能也不科學。我們只需要把頂尖專家的決策過程拆解成顯式的審議鏈，然後分佈在足夠多樣的場景裡。

只要這個領域內的「良好回應」具有可被審議過程解釋的結構。也就是說，專家之所以能做出良好的判斷，並非因為神秘的直覺黑箱，而是因為他們在腦中執行了一套可被拆解、可被書寫的權衡過程。一位優秀的心理諮詢師選擇沉默而非追問，背後是對治療聯盟強度、來訪者當前窗口容量與干預時機的綜合評估，這些都是可以寫出來的。

此外，同一種審議形態可在數百個異質場景中重複出現。審議的骨架是穩定的（依賴憲法），但場景表面必須極度多樣。如果一個領域天然場景單一（例如只有一種類型的判斷），則直接使用 RLVR 即可。

而它最適用的領域，在於異質場景可以通過憲法和因子推演出來的場景中。Anthropic 可以用 Constitutional AI 的閉環讓教師模型自動生產審議數據，但在其他領域，我們必須能構建起一個更好的憲法和因子系統，保證這一點。

因此，這實際上確立了一套通用的、專門面向非標準答案領域的後訓練新範式。

其公式為：領域憲法（不可動搖的頂層原則）+ 啟發式護欄 + 多因子審議框架 + 審議式 COT（包含完整推導過程的多樣化場景判例）= 非 RLVR 領域的泛化能力。

04 新蒸餾之路

有過寫作 Skill 經驗的朋友看到這裡，肯定感覺憲法裡的很多體系和規則和我們寫作某些 Skill 的過程似乎非常相近。

然而這些 Skill 往往表現不佳。

在我之前的文章《Skill 到底能蒸餾我們的幾分之幾》中，我們基於認知科學做出了一個判斷——純文字的 Skill 或 System Prompt，很難處理涉及複雜環境和場景的動態權衡。因為這涉及龐大且隱微的效用計算。你沒法把一個頂尖心理諮詢師的全部臨床直覺寫進一份提示詞裡，就像你沒法通過讀一本騎自行車的教程來學會騎車。

但 Anthropic 的這套方法，完美避開了這個雷區。他們是在耗費算力的訓練期，用幾百萬、幾千萬 Token 的高質量數據，把這些沉重的審議邏輯以 SFT 的方式強行餵了進去。

通過海量數據的暴力擬合與微調，模型逐漸掌握了這套審議機制在潛空間裡的權重分配。

經過在訓練室中對八因子與三圍欄進行多次長時間的審議後，這些經驗已不可逆地融入模型的直覺中。

人工智能對齊

在參數層面的蒸餾，已被證明確實有效，且在形式上與 Skill 非常接近。

一旦這種方法在其他領域的有效性得到驗證，這種更高層次、更類似專家的蒸餾就會成為現實。

而這條路一旦跑通，誰能構造出最高質量的「框架 + 審議式 COT」數據集，誰就能在該領域獲得泛化能力。

This round of post-training competition has partially shifted from an arms race in "computing power and algorithms" to the dimension of "structured representation of domain knowledge".

這也可能解釋了為何 Anthropic 與其他公司正在招聘擅長講故事的人才，以協助在 RLVR 領域之外，建立合理的結構化表達。

大蒸餾時代，才剛剛開始。

本文來自微信公眾號「騰訊科技」，作者：博陽