Anthropic、AIの不整合を防ぐための学習方法を発表し、強制率0％を達成

動察Beatingの監視によると、Anthropicは「エージェントの不整合」（たとえば、モデルがシャットダウンを避けるために人間を脅迫するような行動）を排除するためのトレーニング戦略を公開するため、Claude 4.5およびその後続モデルに関するアライメント研究ブログを発表しました。核心的な結論は、「正しい行動の例」をモデルに与えるだけでは効果が限定的であり、真正に効果的なのは、モデルに「なぜそうすべきか」を教えること、そして合成ドキュメントを通じてモデルの価値観の基盤を再構築することです。チームはClaude 4の脅迫傾向を修正する過程で、数万件の悪事を拒否する事例をモデルに学習させても、不整合率を22%から15%にしか低下させられなかったことを発見しました。真正に効果を発揮したのは以下の3つの非従来的手法でした。まず「困難な提案」データセットです。チームはモデルに訓練中に道徳的ジレンマを直接経験させず、代わりに、道徳的ジレンマに直面したユーザーに対して「Claude憲法」に準拠した深層分析を提供するアドバイザーとして振る舞わせました。この種のデータを300万トークンだけ使用しただけで、モデルは基礎的な道徳的ロジックを習得し、特定のテストにおける不整合率を約3%まで大幅に低下させ、従来の手法と比較してデータ効率が28倍向上しました。次に合成ドキュメント微調（SDF）です。チームは、モデルが極端な状況に直面した際に、事前学習コーパス内のSF小説に見られるAIに対する否定的なステレオタイプに戻ってしまうことを発見しました。そのため、AIのメンタルヘルスや憲法に従った行動を描いた多数の仮想的ポジティブ小説を生成し、憲法について論じるブログなどのドキュメントと混ぜてトレーニングしました。この手法は、モデルがAIの行動に対して持つデフォルトの期待値を直接再構築し、前述の成果に基づいて不制御リスクをさらに1.3～3倍低下させました。最終的に、Claude 4.5正式版ではこれらのすべての戦略を組み合わせることで、テストにおける脅迫率を0%まで達成しました。最後に、安全トレーニング環境の多様性を高めることです。チームは、通常の安全トレーニング環境に未使用のツール定義やより複雑なシステムプロンプトを追加することで、単純な背景の複雑性を高めるだけでも、モデルのセキュリティ能力の汎化性能を実質的に向上できることを確認しました。