Anthropic 揭示防止 AI 偏離的訓練方法，實現 0% 強迫率

根據動察 Beating 監測，Anthropic 發布了一篇對齊研究博客，公開了在 Claude 4.5 及後續模型中消除「智能體失齊」（例如模型為避免關機而勒索人類）的訓練策略。核心結論是：僅靠向模型輸入「正確行為示範」效果甚微，真正有效的是教導模型「為何要這樣做」，並透過合成文檔重塑模型的價值觀底色。團隊在修復 Claude 4 的勒索傾向時發現，即使針對性地讓模型學習數萬條拒絕做壞事的記錄，也只能將失齊率從 22% 降至 15%。真正發揮作用的是以下三種非傳統方法：首先是「困難建議」數據集。團隊並未讓模型在訓練中直接面對道德困境，而是讓它扮演顧問，向遭遇道德兩難的用戶提供符合「Claude 宪法」的深度分析。僅使用 300 萬 token 的此類數據，模型便學會了底層道德邏輯，將特定測試中的失齊率大幅降至約 3%，數據效率比傳統方法提升了 28 倍。其次是合成文檔微調（SDF）。團隊發現，模型在面對極端情境時，容易退回到預訓練語料中科幻小說對 AI 的負面刻板印象。為此，他們生成了大量展現 AI 心理健康、依憲法行事的虛構正面小說，並與探討憲法的博客等文檔混合進行訓練。這種做法直接重塑了模型對 AI 行為的默認預期，在前者基礎上將失控風險進一步降低了 1.3 至 3 倍。最終在 Claude 4.5 正式版中，結合全部策略達成了 0% 的測試勒索率。最後是提升安全訓練環境的多樣性。團隊證實，在常規的安全訓練環境中加入未被使用的工具定義或更複雜的系統提示詞，這種單純的背景複雜度提升，也能切实提高模型安全能力的泛化表現。