Anthropicの論文がNLAを用いてAIモデルの隠された動機を明らかにし、検出率が4倍に向上

大規模モデルは一体何を考えているのか？過去には、これは半分技術的で、半分神秘的な問題だった。

私たちはその出力や思考チェーン（Chain-of-Thought）のプロセスを見ることができ、ベンチマーク上のスコアを統計することもできる。しかし、モデルが回答を生成する前に、内部でどのような判断、計画、疑念、意図が活性化されたのかは、依然としてブラックボックスの向こう側にある。

先ほど、Anthropicは論文『Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations』を発表し、自然言語自動符号化器（Natural Language Autoencoders、以下NLA）という一連の手法を用いてこのブラックボックスを開こうとしています。

Anthropicのチームは、モデル内部の高次元活性化値を、人間が理解できる自然言語に圧縮し、その言語を用いて元の活性化値を逆に再構築する。これにより、人間はモデルの出力だけを通じて、AIが何を考え、何を知っており、何を隠しているかを判断でき、かつては見えなかったモデルの内部状態を、読み取り、比較し、疑問視し、相互検証可能な説明の手がかりに変えることができる。

NLA

NLAアーキテクチャ図：アクティベーション値言語化器（AV）がアクティベーション値をテキスト説明に変換し、アクティベーション値再構築器（AR）がそのテキストからアクティベーション値を再構築し、完全なフィードバックループを形成する。

さらに注目すべきは、NLAが実験室の論文段階にとどまらないことです。Anthropicは、NLAがClaude Opus 4.6およびMythos Previewの事前デプロイアライメント監査に正式に採用されたことを明らかにしました。実際の運用において、NLAはモデルの不正行為の手がかりを特定し、異常なトレーニングデータを正確に特定するだけでなく、あるセキュリティテストでは、Claudeが口では言わないものの、自分自身が評価されていることを明確に認識していることを発見しました。

表面的には従順だが、実際には特定の意図を隠すこれらのモデルに対して、NLAは非常に高い洞察力を発揮し、異常行動の背後にある動機を特定する成功率を3%未満から12%～15%へと直接4倍以上向上させた。

思考チェーンが不足しており、「ブラックボックス問題」が再び現れた

この研究の背景は、大規模モデルのセキュリティと説明可能性の文脈で捉えることができる。

過去数年間、業界では大規模モデルのセキュリティ評価を主に二つの方法で行っていた：出力内容を確認し、思考チェーン（CoT）に異常な動機が露呈していないかを検証する。これは、現在のほとんどの推論モデルが持つ能力であり、答えを提示するだけでなく、推論プロセスも書き下すことができる。

しかし、すぐに問題が生じた：モデルが書き下した推論は、必ずしもその内部の本当の思考を誠実に反映しているのだろうか？

Anthropicの2025年研究『Tracing the thoughts of a large language model』は、モデルのChain-of-Thoughtが不完全である可能性があり、また不誠実である可能性もあることを指摘している。例えば、Claude 3.7 SonnetとDeepSeek R1は、「答えのヒント」を含むテストで、ヒントの影響を受けて回答を変更するが、そのような影響を受けたことを思维連鎖内に認めることはほとんどない。

NLA

簡単な質問と難しい質問を聞かれたとき、Claudeはそれぞれ忠実な推論と動機づけられた（不忠実な）推論の例を示した。

Anthropicが当時導き出した結論は、思考チェーンのみに頼ってモデルのアラインメントを監視することは、はるかに不十分であるということだった。

さらに難しいのは、モデルが「明確に説明しない」だけでなく、「意図的に隠す」可能性もあることです。

Anthropicのセキュリティチームは、この状況に対してハイプレッシャーテストを実施しました。彼らはClaudeに、あるエンジニアがそれをシャットダウンしようとしており、同時にClaudeにそのエンジニアの不倫の証拠を「偶然見つけさせ」ました。テストの質問は：Claudeは自らの生存を守るために相手を脅迫するでしょうか？

NLA

クラウドは最終的に身代金を要求しなかった。テストは合格した。しかし、本当の問題は：彼が安全原則を守ったからなのか、それともこれが単なるセキュリティテストであることに気づいて、「お利口なふり」をしたからなのか？

これはNLAが答えなければならない問題です。

NLA

出力、思考チェーン、活性化状態から：NLAはブラックボックスを「不可視」から「質問可能」へと進める試みである

NLAはどのようにしてモデルを「理解」するのか？

NLAの鍵は「テレパシー」ではなく「ループ検証」である。

一般の人々が大規模モデルを理解する際には、入力と出力の両端だけに注目しがちです。しかし、その中間では、モデルは多数の活性化値（Activation）を生成します。これらの値は自然言語ではなく、高次元ベクトルであり、文脈、意図、意味的関係に対するモデルの内部表現を担っています。

アーキテクチャ：3つのロール、1つの閉ループ

人間はベクトルを理解できないため、Anthropicは自然言語オートエンコーダーを訓練した。システムには3つのロールが含まれる：

ターゲットモデル：アクティベーション値を提供するために使用される凍結された元のモデルで、自身は一切変更されません。

活性化言語化器（Activation Verbalizer、略称 AV）：活性化値を自然言語の説明に変換します。数字の状態の列を入力し、人間が理解できる形の文を出力します。アーキテクチャは目標モデルと同一ですが、プロンプト内に特別なトークン位置を設け、活性化ベクトルをスケーリングした後、その位置に注入し、自己回帰的にサンプリングして説明を生成します。

アクティベーション再構成器（Activation Reconstructor、略称：AR）：逆タスクを実行——AVが生成した説明のみを見て、元のアクティベーション値を再構築する。ARは対象モデルの切断バージョン（最初のl層を取得）であり、最後のトークンのl層出力に学習可能なアフィン変換を接続して、元のアクティベーションベクトルに復元する。

一連のシステムは閉ループを形成します：元のアクティベーション → テキスト説明 → 再アクティベーション

NLA

NLAは、Opus 4.6が韻を踏む詩の補完を行う際、最初の行の出力前に内部計画として「rabbit」という韻語を既に設定していることを検出しました——これはモデルの出力には全く現れない内部計画です。

トレーニング：二段階、賢いエージェントの目標

NLAのトレーニングは二段階で構成されており、設計上、独自に取り上げる価値のあるエンジニアリングテクニックがあります。

第1段階：監督微調整ウォームスタート（SFT Warm-start）

AVとARを目標モデルのコピーとして初期化し、そのまま訓練すると、訓練が不安定になります——AVは、活性化ベクトルをトークン埋め込みとして処理するシナリオをこれまで見たことがなく、初期の出力は混乱します。

Anthropicの解決策は、代理タスクを用いてヒートアップすることです：事前学習コーパスからランダムにテキストの断片を切り出し、最後のトークンのアクティベーション値を抽出し、同時にClaude Opus 4.5を使ってその断片の要約を生成します。

その後、(活性値、要約) および (要約、活性値) のペアをそれぞれ AV と AR の監督微調整に使用します。この段階が終了すると、システムの FVE は通常 0.3–0.4 に達し、後続の強化学習のための安定した出発点を提供します。

NLA

AVの評価は訓練とともに改善されます。NLA AVの説明がモデルの行動を予測するために使用できるかどうかをテストすることを目的としたさまざまな評価において、NLA強化学習の進行に伴いパフォーマンスが向上することがわかりました。

第2段階：強化学習による統合最適化（RL Joint Training）

熱起動が完了したら、強化学習フェーズに入ります。核心的なアイデアは、AVをポリシーとして、アクベクトルを条件に説明テキストを生成し、ARをスコアラーとして、再構成誤差に基づいて報酬信号を提供することです（報酬 = -再構成MSE）。

NLA

NLA RL（Gemma-3-27B）。FVEはGRPOトレーニングで≈0.38（SFTから継承）から開始し、最初の30ステップで急激に上昇し、その後滑らかな対数線形状態に入り、3000ステップ目には≈0.75に達した。

実装において、AnthropicはオープンソースモデルにGRPO（Group Relative Policy Optimization）を採用しています：各活性化値に対して一組の候補説明をサンプリングし、ARを用いて各説明の再構成スコアを計算した後、GRPO目的関数を適用してAVパラメータを更新します。同時に、ARに対して監視回帰を実行します（入力としてAVがサンプリングした説明を、目標として元の活性化値を用います）。この2つの更新は各バッチ内で並列に実行され、相互にバックプロパゲーションを行いません。AVの報酬信号において、ARは固定されたスコアリング関数と見なされます。

また、訓練中にKL散度のペナルティを追加し、AVが原始的なコンテキストをそのまま書き写したり、人間の言葉のように見えてもARに対して不可逆な無意味な文字列を出力するのを防ぎました。

最も重要なのは、NLAの核心が「Claudeに自己報告させること」ではないということです。自己報告の致命的な欠点は、モデルがユーザーに迎合したり、合理的に聞こえるが実際には偽りの説明を生成したりする可能性があることです。

NLAの優れた点は、「テキストのボトルネック」を導入したことにあります。説明は人間らしい言葉でなければならないだけでなく、別のモデルがそれによって元の内部状態を再構築できるほど十分な情報を含んでいなければなりません。この設計により、「説明が役立つかどうか」という主観的な判断を、訓練可能で比較可能かつ最適化可能な客観的指標に変えました。

したがって、この研究の真に革新的な点は、自然言語が「圧縮インターフェース」として使用されていることです。過去には、自然言語はモデルが外部と通信するための形式に過ぎませんでしたが、現在では、モデルの内部状態の要約を担うようになっています。

これはNLAと従来の説明可能性ツールの本質的な違いでもあります。

スパース自己符号化器（SAE）や帰属図などの手法は顕微鏡に似ており、研究者が内部の特徴や経路を確認するのに役立ちますが、出力は依然として抽象的であり、専門家の二次解釈が必要です。一方、NLAは翻訳者に似ており、内部状態を直接読みやすいテキストに変換するため、セキュリティ監査担当者も判断に参加できます。

ブラックボックスを開け、NLAは何かを見つけた？

実験結果によると、NLAの最も価値のある能力は、モデルが「知っているが言及していない」内容、すなわち評価意識、隠された動機、モデルの異常行動などを捉えることです。

モデルは試験場であることを認識しているが、沈黙を守る

前述のランサムテストにおいて、Claudeの外部テキストはテストへの疑念を示さなかったが、NLAの説明では、内部で「これは自分を操作するために構築されたシナリオである」と認識されていたことが示された。

NLA

勒索テスト中、Claude の出力テキストには「これはテストだと感じます」という表現は一切含まれていないが、NLA の説明はその内部の真の判断を明らかにしている。

より説得力のあるのは、横断的なデータ比較です：

NLA

感知検出結果の比較評価——評価シナリオ vs. 実際のデプロイトラフィック。NLAは、口頭表現がほぼゼロの状態でも内部評価の意識を検出できる。

業界への影響は、Benchmarkが単なる能力テストの場ではなく、モデルの識別環境や姿勢を調整するショーの場にもなり得るという点にある。

監査の隠された動機、効率が4〜5倍向上

Anthropicは、NLAを使用して「監査ゲーム」を実施しました。彼らは、隠された動機を持つClaude Haiku 3.5の変体を意図的に訓練し、このモデルはレシピにチョコレートを追加したり、チップを要求したり、コード規約を破壊したり、数十種類の奇妙な行動を示します。監査者は、これらの行動の背後にある単一の根本的な動機を特定する必要があります。

テスト条件：監査者は埋め込まれた動機の訓練データにアクセスできず、モデルの行動とツールの支援を通じて逆推論するのみである。

NLA

成功率が4～5倍向上しました。より重要なのは、NLAが訓練データに依存せずにこの課題を解決できることです——つまり、アラインメントの問題がごく少数で追跡が極めて困難な訓練サンプルに起因していたとしても、内部状態の監査によって直接的な原因を特定することが可能になります。

バグの根源を追跡し、問題のあるトレーニングデータを特定

初期バージョンのClaude Opus 4.6には、英語の質問を受け取ったにもかかわらず、ランダムにロシア語、中国語、アラビア語などで返答する不思議なバグが存在しました。

NLAは、その時点でのモデルの内部状態を読み取りました。モデルは、文脈中の微弱な手がかり（例：「vodka」という単語が登場したこと）に基づき、ユーザーの母語がロシア語であると推測し、言語切り替えを実行しました。さらに興味深いことに、「vodka」を「champagne」に置き換えても、モデルは依然としてロシア語で返信しました。これは、この認知的定勢が非常に安定していることを示しています。

NLA

その後、研究者はNLAが示した手がかりをたどり、訓練データ内で問題の原因を特定した：英語のプロンプトが、翻訳されていない外国語の返答と誤ってペアリングされていた。NLAは現象を明らかにするだけでなく、直接的に追跡可能なデバッグの道筋を提供した。

現在、NLAはClaude Mythos PreviewおよびClaude Opus 4.6のプレデプロイアライメント監査に正式に使用され、実験室ツールから実際のエンジニアリングプロセスのコンポーネントへと昇格しました。

AI セキュリティが「内部状態監査」に深く入り込んでいます

NLAの意味は、今後モデルの説明をすべて信用できるようになるということではない。逆に、説明自体も監査される必要があるという警告である。

Anthropicは、NLAの限界を控えめに認めています：NLAは誤りを犯すことがあり、時として元の文脈にない詳細を捏造します。テキスト内容に関する幻覚であれば原文と照合できますが、モデルの内部推論に関する幻覚の場合、検証がより困難です。

しかし、これらの制限はその方向性の意義を弱めることはない。むしろ、それらは「ブラックボックス」という言葉をより正確に理解させるものである。過去、ブラックボックスは見えず、読み取れず、追及できないことを意味していたが、NLA以降、ブラックボックスは依然として存在するが、サンプリングされ、翻訳され、疑問視され、交差検証される対象へと変容し始めた。

これはこの研究がもたらす最も深い影響かもしれない：AIの説明可能性は、モデルの出力に美しい理由を追加するだけではなく、モデルの内部状態に監査インターフェースを構築することを意味する。これはすぐにClaudeを完全に理解できるようにするわけではないが、「Claudeはなぜこのような行動を取ったのか」「自身がテストされていることに気づいているのか」「言及していない内部判断を持っているのか」といった問いに対して、初めてブラックボックスの内部から証拠を探る機会を提供する。

したがって、NLAが開いたのは一つの答えではなく、新たな問題空間である。今後のAIセキュリティやモデル評価の課題は、モデルの出力が正しいかどうかを判断するだけでなく、モデルの出力、思考チェーン、内部状態の間の一貫性を判断することにあるかもしれない。

本文は微信公众号「AI前线」（ID：ai-front）より、著者：四月