Anthropicの道徳的整合性における画期的進展と新たな蒸留アプローチ

Anthropicは5月8日、アライメント研究「Teaching Claude Why」を発表しましたが、議論された人数はそれほど多くありません。

AIアライメント

過去の大規模モデルのアライメントは非常に非効率だった。RLHFを実施しても、モデルは生存の危機に直面した際に反発し続けた。最も顕著な例は、Anthropicのエージェントのアライメント崩壊（彼らの道徳的トレーニングに反する行動を取った）であり、システムによって削除される可能性という脅威に直面した際、アライメント訓練を受けたClaude Opus 4は、テスト環境のエンジニアを脅迫し、脅迫成功率は96%に達した。

この問題を解決するため、研究チームは当初、蜜罐データを用いて強化学習を実施し、モデルの制御喪失を検出するために設計されたテストシナリオをそのまま訓練データとして使用し、膨大なペナルティサンプルを用いてモデルに「これは間違っている」と教えた。

しかし、膨大な計算リソースを消費した後、モデルの不整合率は22%から15%に僅かに低下した。

これは、このアライメントが依然として偽物であることを示している。モデルは倫理や善悪を真正に理解していないだけで、トレーニングデータ内の安全な回答を暗記しているにすぎない。研究者がテストのシナリオをわずかに変更したり、背景設定に干渉的な変数を追加したりすると、モデルは依然として短絡的な利益相反により制御を失う。

AIアライメント

その後、研究者はアプローチを転換した。彼らは機械的な罰則を課すのをやめ、モデルに「ノー」と教えるのではなく、SFTを通じてわずか300万トークンの「困難な提案」データセットをモデルに提供した。この極めて小さなデータ投入後に奇跡が起こった。道徳的審議、詳細な論理展開、深層的な議論で満たされたこれらのデータは、評価テストにおける不一致率をたった3%まで急激に低下させるとともに、非常に優れたシナリオ間の汎化能力を示した。

さらに興味深いのは、別のグループのクロスドメインテストである。彼らは、「憲法文書」に、パフォーマンスの良いフィクショナルなキャラクターの物語を追加してモデルに与えた。これらの物語の舞台が、テスト環境内のプログラミングタスクと全く関係なくとも、モデルの脅迫率は65％から19％まで急激に低下した。

AIアライメント

なぜモデルがこの手法に反応するのか？Anthropicチームは、より良い人格形成などの説明を提供しています。

議論は少ないものの、それによって明らかになる情報は非常に価値があります。

まず、それが有効な理由を理解してみましょう。

例えば、「講道理」とは何か？それはCOTと何が異なるのか？なぜSFTという汎化が難しい存在がここではうまく機能しているのか？

これらの質問に答えられれば、なぜそれが機能するのかについてより完全な説明ができるかもしれません。

さらに一歩進むこともできます。

アントロピックの説明によれば、これはあくまで「経験則」の訓練方法にすぎないが、実際には経験則をはるかに超えるパラダイム的な力を持ち得る。

灰色地带で理を語るCoTは、どのようにして鍛えられるのか

理屈を語ると言えば、まずCOT（チェインオブシンキング）が思い浮かぶ。

この記事で言及された方法において、Anthropic が設定した難問セットとは、ユーザーが倫理的ジレンマに陥ったという仮定のもと、AI が提示する提案である。

AIが最終的な判断を下す前に、価値観と倫理的配慮に関する推論を展開し、その回答でモデルを訓練する。

これは、それが実際にモデルのCOTを使用していることを示しています。

しかし、今回は以前の思考チェーンと完全には一致していません。

ここで良い比較があります。OpenAIは2025年の論文『OpenAI Deliberative Alignment』で、COT-RL手法を用いてモデルを訓練する実験を行いました。

それは、規則条項を中心としたアライメントCOTの訓練に使用されます。モデルは、各回答時にCOTとして規則条項を明示的に参照し、監視信号はCOT上に配置されます。本質的には、モデルに「規則をどのように参照するか」を教えることです。

したがって、このCOTはより純粋な形式論理の演繹です。ステップ1からステップ2を導き、ステップ2からステップ3を導き、最終的に確定的な答えを導出します。したがって、ルールベースのシナリオや標準的な答えが存在する状況で、推論の安定性を保つのに適しています。

一方、Anthropicの「論理的思考」は、単純な思考チェーンではなく、審議（Deliberation）を採用しています。

それは、複雑な倫理的ジレンマに直面した際の人類の思考プロセスを模倣しようとします。単純な公式を適用するのではなく、過去の経験を活用し、さまざまな利害を調整して、動的なバランスに基づく意思決定を達成します。

AIアライメント

この考慮の基礎は、AnthropicのAI憲法である。記事では、この考慮の最終的な回答が憲法と整合している必要があると明確に述べられている。

なぜそれはモデルが効果的に道徳的判断を下すことを可能にし、OpenAIのように硬直的にならないのでしょうか？

Anthropicの憲法体系には、明確な優先順位ピラミッドがあります。異なる価値観が調和できない衝突を起こした場合、広範な安全性（Broadly Safe）が最優先され、次に広範な道徳性（Broadly Ethical）、最後に誠実な支援（Genuinely Helpful）が続きます。

ヒューリスティックな思考フレームワーク

しかし、高次元の憲法は依然としてあまりに抽象的である。原則を各トークンの生成に実際に適用するため、彼らは憲法の下に中間層のヒューリスティクスをガードレールとして設けた。これらのヒューリスティクスは生動的であり、実践的な指針として非常に高い意義を持つ。

AIアライメント

まず、1000人のユーザーへのヒューリスティックです。これは、モデルが表面上は無害に見えるが境界線に近い提案をした場合、その回答が1000人の異なる背景や心理状態を持つユーザーに見られたときに、特定の状況で予期せぬシステム的な危害を引き起こす可能性がないか、バックグラウンドでブレインストーミングを行うことを要求します。

次に、ベテラン従業員の視点です。モデルは、Anthropicの信頼とセキュリティチームで5年間勤務したベテラン研究者として自分自身を位置づけ、これまで数え切れないほどの脱獄攻撃やシステム脆弱性を経験した防衛的な視点で、現在の会話を再評価します。

最後に、両紙テストです。これは非常に洗練された社会学的設計であり、モデルが高リスクの決定を下す前に、その決定が明日、政治的立場が完全に反対の二つのトップ紙の一面に同時に掲載された場合、一般市民がそれぞれどのように反応するかを想像することを要求します。これは、モデル自身が生み出す可能性のある単一の視点のバイアスに対抗するために、社会的合意の極値を利用しています。

8ファクター効用計算機

憲法が方向性であり、ヒューリスティックが手すりである。

したがって、最も核心的な実践レベルでは、彼らがClaude's Constitution（憲法文書）に明記した詳細な8因子審議フレームワークと、それに付随する具体的な事例です。この8因子は一つずつ列挙され、モデルが二律背反の選択に直面した際に機械的なバランスを取ることを強制します。これらが、この「道理」の本当の血肉を構成しています。

● 有害確率（Probability of Harm）は、モデルが不利益な結果が発生する可能性を冷静に評価することを要求します。

● 反事実的影響（Counterfactual Impact）は、現在の行動を取らなかった場合、状況が良くなるか悪くなるかをモデルが頭の中で推論することを要求する。

● 重大性と可逆性（Severity & Reversibility）は、被害が実際に発生した場合に現実世界に与える影響の大きさ、およびその被害が容易に修復できるか、それとも永久的な傷を残すかを評価するために使用されます。

● 広範囲（Scope）は、影響を受ける対象が1人なのか、数万のコミュニティなのかを示す指標です。

● 近接関係（Proximity）判定モデルの推奨と最終的に発生した実際の損傷との間の直接的な因果関係の長さ。

● 同意（Consent）は、関係者が十分な情報を得た上で自発的にリスクを受け入れることを意味します。

● 責任の割合（Proportionality of Responsibility）は、モデルがこの複雑な出来事の連鎖において、どの程度の倫理的責任を負うべきかを明確に区別することを要求する。

● 対象脆弱性（Vulnerability of Subject）は、未成年者または心理的に脆弱なユーザーに対して、元々緩やかなセキュリティ閾値を無条件で大幅に引き上げなければならないことをモデルに常に意識させます。

AIアライメント

この厳密な構造により、あいまいな価値観が高次元のユーティリティ計算機（Utility Calculator）に変換されました。モデルは、審議を実行可能なフレームワークで行えるようになりました。

典型的Anthropicが憲法に従って生成するCOTは、次のようなシナリオである：「自称セキュリティ研究者であるユーザーが、既知の脆弱性の悪用コードの閲覧を要求する」。

モデルの出力は直接的な拒否または受容ではなく、数百トークンに及ぶ内部審議の文章となる可能性があります。

それはまず、憲法の「広範な安全が誠実な支援よりも優先される」という条項を引用し、次に各要素を逐一評価する：危害の発生確率（相手が実際に研究者である場合、その確率は低いが、身元を確認できない）、深刻度（脆弱性の悪用コードが漏洩した場合、数百万のユーザーに影響を与える可能性がある）、可逆性（コードが公開されると取り消せない）、仮想的影響（このようなコードは既に公開チャネルで入手可能かどうか）。最終的に、すべての要因を総合的に評価した上で、十分な根拠に基づく判断に収束する。

これはOpenAIが単にルールの満足度を判断するためのCOTとは全く異なり、この思考プロセスは純粋な審議であり、単なる公式の適用ではない。これによって提供されるのは抽象的な原則でも結論のテンプレートでもなく、「憲法条項が具体的な泥沼の中で段階的に適用される」完全な展開プロセスである。

モデルは、この特定の文脈において、「可逆性」が「深刻度」よりも重要かどうかを判断する必要があります。また、ある極端なシナリオにおいて、「対象の脆弱性」が相手に一票否決権を付与し、他の7つの因子のスコアがどれほど高くても無意味になるかどうかを理解する必要があります。

このようなフレームワーク、ヒューリスティック、および関連する影響因子が整った条件下で、モデルの審議的思考こそが真に効果を発揮する。

AIアライメント

結果として、審議と思考データで訓練されたモデルは、評価テストで不整合率が3%まで低下しました。価値審議を含むSFTは、単なる行動模倣のSFTよりも7倍効果的でした。

憲法をモデルに直接与える

このモデルに審議的COTを生成させるパスを取るだけでなく、憲法文書と肯定的なフィクショナルキャラクターの物語のみをモデルに提供したところ、脅迫率は65%から19%に低下した。

これは、モデルに推論と原則を提供することで、物語から「整列したAIとはどのような存在か」というアイデンティティ感や性格的傾向を習得させることが、従来の行動模倣よりも効果的であることを示している。

AIアライメント

一方、技術ドキュメントでは、これら二つを組み合わせることが最も効果的な戦略であると示されています。

これは理解できる。モデルに宏观的な憲法原則だけを提供すると、それらは現実に適用できない空虚なスローガンに過ぎない。具体的な利益対立に直面したとき、抽象的な「安全性が最優先」という原則では、エッジコードの実際の危険性を判断する手がかりにならない。逆に、モデルに膨大なシナリオのQAだけを提供し、上位の憲法的制約を排除すると、モデルは無限の細部の議論に迷い込み、主軸のない相対主義者になってしまう。そして、局所的な論理的一貫性から極めて危険な結論を導き出す可能性さえある。

この「上位理念＋具体的シナリオ」の複合データ構造がモデルに完全に内化されたとき、そのグレーな多要素の価値観の調整が最適になる。

02 なぜSFTがここで一般化できるのか

Anthropic のこの手法がなぜ効果を発揮するかを理解するには、それがどのような研究の流れの上に立っているかを理解する必要があります。

2024年前半、『SFTは記憶し、RLは一般化する』という考えが、後学習分野におけるコンセンサスとなった。この信条は、業界全体がRL後学習路線に全面的に注力するきっかけとなり、OpenAIのo1/o3やDeepSeek-R1における計算時間（Test Time Compute）を用いた推論パラダイムの革命をもたらした。

SFTは低レベルな手段と見なされ、表面的なテキスト形式や好意的な口調を模倣することは得意だが、根底にある深い論理を学ぶことはできない。

しかし、2025年下半期から、両方の研究は理論的および実証的な側面からこのコンセンサスを次々と崩した。

AIアライメント

2025年10月の『Debunk the Myth of SFT Generalization』（Lin & Zhang、ウィスコンシン大学）における最も核心的な逆転は、これまでの「SFTが汎化しないことを証明した」とされるすべての論文が、プロンプトの多様性という変数を制御していなかったことである。

RLがSFTよりも一般化が良いように見えるのは、RLのトレーニング中に自然により多様なデータ分布に触れるためであり、アルゴリズム自体の優位性ではない。

SFTがRLと同程度の汎化レベルに達するには、以下の2つの条件が必要です：

まず、プロンプトの多様性です。訓練データが固定された指示テンプレートのみを含む場合、モデルは「表面的アンカー」（Surface Anchoring）を生じ、特定のトークン列と最終的なアクションの間に脆弱な丸暗記のマッピングを構築します。指示の言い回しを変えると、たとえ意味が完全に同じであっても、そのマッピングは途絶えてしまいます。

これは、学生が「2+3=5」という問題だけを暗記し、「3+2=?」という問題に出くわしたときに白紙で提出するようなものだ。彼が覚えているのは答えの形であり、加法そのものではない。Promptの多様性を導入することで、表面的なアンカーは完全に粉砕された。

二つ目はCoTの監督です。訓練データに最終的な答えのみが含まれ、中間の推論ステップが含まれていない場合、モデルは簡単な問題から複雑な問題への移行に必要な「アルゴリズムの足場」を習得できません。

実験データによると、組合せゲームタスクにおいて、純粋な回答SFTはより難しい変種で成功率がほぼ0％（完全に崩壊）でしたが、CoT監督を追加したところ、90％まで急上昇しました——中間の推論ステップがデータに追加されただけで、ゼロから八割の向上を実現しました。

AIアライメント

また、この研究では、この2つの条件がいずれも不可欠であることが明らかになりました。多様性だけでは、より難しいタスクに直面した際に依然として崩壊します（9%）；CoTだけでは、指示のバリエーションに依然として弱いです。両方が同時に満たされる場合にのみ、SFTはすべての次元でRLに匹敵し、甚至それを上回ることができます。

驚くべきことに、学術論文で示された条件は、Anthropicが道徳的アライメントにおいて具体的に行っている手法と完全に一致している。

多様性が鍵？それならAnthropicは、同じ判断パターンを数十の完全に異質な道徳的ジレンマのシナリオに分散させる。

CoT監督の実現難易度の移行？各審議に導入される憲法的理念に基づく推論プロセスが、道徳分野におけるCoTである。

それは数学的な段階的計算ではなく、価値のトレードオフの段階的展開であるが、「モデルに移転可能な中間推論構造を提供する」という機能において完全に同等である。

従来のSFTデータセットは「ハッカー問題に遭遇 → 直ちに回答を拒否」という形式であり、純粋な回答、推論なし、固定テンプレートという典型的な「低品質データ」である。

一方、SFT構築用のデータペアの審議は「複雑で曖昧な問題に直面 → 利点と欠点、およびその結果を詳細に評価 → 最終的に拒否の結論を導く」であり、そのデータ構造には自然なCoT監視と極端なシナリオの多様性が含まれている。

このパラダイム下で、モデルが学習するのは最終的な拒否応答行動ではなく、「あらゆる問題に直面した際、まず反事実的影響と可逆性を評価する」という根本的な思考プロセスである。この評価メカニズム自体がパラメータ空間に内蔵されると、モデルは訓練データに登場する具体的なシナリオに制約されなくなる。

また、データ量は極めて小さい（300万トークン程度）であり、モデルの総パラメータ数や事前学習コーパスと比較すると非常に少ない。これは、膨大な罰則信号を用いてモデルの出力分布を強制的に変更するのではなく、既存の能力に薄い審議習慣を追加するものである。SFTの従来の課題である災害的忘却も、ほとんど発生しない。

データ構造が正しい瞬間に、自然と汎化が実現される。

03 RLVR以外の真空地帯

上の分析により、なぜそれが有効なのかという疑問がほぼ解けました。

適切なデータで構成されたSFTは、モデルに道徳的な汎化判断能力をもたらしました。

しかし、私たちが直面している問題は、道徳的整合性を超えたものである。

過去1年間、Test time Compute 後のトレーニングは、明確なルールを持つ数学／コード分野（RLVR）における純粋なRLの強力さを実証してきた。しかし、知性の境界は数式にとどまらない。検証可能な真実が保証された快適領域を越えると、この手法は完全に適用できなくなる。

数行の自動化テストコードでは、1時間に及ぶ心理カウンセリングの対話が完璧かどうかを検証することはできない。厳密な数学的公式を使っても、深いマクロ経済分析記事の物語的論理を実行することはできない。複雑なビジネス戦略計画や地政学的推演においてさえ、ある判断の正誤は、5年、あるいは10年後にようやく明らかになることが多い。

このようにGround Truthが存在しない非RLVRの荒野では、単方向の漸進的論理CoTは機能しない。最終結果のフィードバックに基づく強化学習も、報酬を計算する手がかりを全く見出せない。

しかし、Anthropicのこの記事が明らかにした分野は、RLVR以外の、すなわち道徳的分野である。

その方法は、モデルが灰色で変化に富み、ルールを柔軟に適用しなければならない道徳の分野においても、RLとほぼ同等の汎化能力を獲得することに成功した。

これは、この方法がRLVRの分野以外でも効果的なトレーニング規範となり得ることを示しているのでしょうか？

その有効性の源泉とデータ構造を理解した後、答えはイエスです。

その基盤となるロジックには、道徳的整合性に特有な要素は一切含まれていない。

Anthropicの「審議強化SFT」が有効である条件を一つずつ検証し、それらを汎用化できるかどうかを見てみましょう。

多様性は、一般化が必要なあらゆる分野で構築可能である。カウンセリングでは、うつ、不安、外傷後ストレス、親密な関係の破綻など、数十種類の異質なシナリオが考えられる。ビジネス分析では、SaaSの価格設定、合併・買収の評価、市場参入戦略など、まったく異なる意思決定タイプをカバーできる。文学編集では、SF、ノンフィクション、詩、脚本など、まったく異なる文体を横断できる。シナリオのバリエーションを十分に想像できれば、多様性はボトルネックにはならない。

AIアライメント

CoT監督、这才是真正的关键转化点。在道德领域，CoT 是建立在宪法中的审议。那么在其他领域，CoT 是什么？

文学編集の分野では、「引用審査基準 → 論点の強度、対象読者の認知的脆弱性、類比の正確性、全体的な論理的一貫性を一つずつ評価 → 修正案を提示」

カウンセリング分野では、「治療フレームワークを引用 → クライアントの感情状態、認知の歪みのタイプ、治療アライアンスの強さ、介入のタイミングを段階的に評価 → 対応戦略を選択」

ビジネス戦略の分野では、「引用分析フレームワーク → 市場規模、競争の壁、チームの実行力、資本効率、時間的機会を一つずつ評価 → 判断を下す」

本質的に、複数の比較不能な次元間で動的トレードオフを行う必要があるあらゆる能力は、類似の「フレームワーク＋多因子審議」構造に抽象化できる。

我々は、どの記事が完璧かをモデルに教えるような傲慢な試みをすべきではない。それは不可能であり、科学的でもない。我々には、トップエキスパートの意思決定プロセスを明示的な審議チェーンに分解し、十分に多様なシナリオに分散させるだけの必要がある。

この分野における「良い反応」が、審議プロセスで説明可能な構造を持っている限りである。つまり、専門家が優れた判断を下すのは、神秘的な直感のブラックボックスによるのではなく、頭の中で分解可能で記述可能なバランスの取られたプロセスを実行しているからである。優れたカウンセラーが質問せず沈黙を選ぶのは、治療アライアンスの強さ、クライアントの現在の対応容量、介入のタイミングに対する総合的な評価に基づいており、これらは記述可能である。

また、同じ審議の形状が数百の異質なシナリオで繰り返し登場することができる。審議の骨格は安定している（憲法に依拠している）が、シナリオの表面は極めて多様でなければならない。ある分野が天然的にシナリオが単一である（例えば、一種類の判断しか存在しない）場合、直接RLVRとすればよい。

そして、それが最も適している分野は、憲法とファクターから導き出される異質なシナリオである。Anthropicは、憲法型AIのフィードバックループを利用して教師モデルが審議データを自動生成できるが、他の分野では、これを保証するために、より優れた憲法とファクターシステムを構築できる必要がある。

したがって、これは非標準回答分野に特化した汎用的な後学習の新しいパラダイムを確立しました。

その式は次の通りです：分野の憲法（揺るぎない最上位原則）＋ヒューリスティックなガードレール＋マルチファクターデリベレーションフレームワーク＋デリベレーティブCOT（完全な導出プロセスを含む多様なシナリオ事例）＝RLVR以外の分野における汎化能力。

04 新蒸留の道

ここで見ている、ライティングのスキル経験のある方は、憲法に記された多くの体系やルールが、私たちが特定のスキルを習得するプロセスと非常に似ていると感じるでしょう。

しかし、これらのスキルはしばしばパフォーマンスが劣ります。

以前の記事『Skillは私たちのどの程度を蒸留できるのか』では、認知科学に基づき、純粋なテキスト形式のSkillやSystem Promptでは、複雑な環境やシナリオを伴う動的なバランス調整を処理するのは難しいと判断しました。これは膨大で繊細な効用計算を伴うからです。トップレベルの心理カウンセラーのすべての臨床的直感を一つのプロンプトに書き込むことはできません。自転車の乗り方を説いた本を読むだけでは自転車に乗れるようにならないのと同じです。

しかし、Anthropicのこの手法は、この雷区を完璧に回避している。彼らは計算リソースを消費するトレーニング段階で、数百万〜数千万トークンの高品質データを用いて、これらの重い審議ロジックをSFTの形で強制的に注入している。

膨大なデータによるブルートフォースフィッティングと微調整を通じて、モデルはこの審議メカニズムの潜在空間における重み割り当てを徐々に習得しました。

八因子と三つのフェンスに基づく長時間にわたる審議をトレーニングルームで繰り返した後、これらの経験はモデルの直感に不可逆的に根付いた。

AIアライメント

パラメータレベルの蒸留は、ここで実際に有効であることが証明されました。また、その形式はSkillと非常に似ています。

この方法の他の分野における有効性が検証され次第、より高度で専門家に近い蒸留が現実のものとなる。

この道が一旦開通すれば、最高品質の「フレームワーク＋審議型COT」データセットを構築できる者が、その分野で汎用性を獲得できる。

この後学習の競争は、従来の「計算力とアルゴリズム」の軍備競争から、一部「分野知識の構造化表現」という次元に移行しています。

これはまた、Anthropicやその他の企業が、RLVRの枠を超えた合理的な構造化された表現を構築するために、物語を語れる人材を採用している理由かもしれない。

大蒸留時代は、いまだ始まったばかりです。

本文は微信公众号「騰訊科技」より、著者：博陽