Статья Anthropic раскрывает скрытые мотивы в моделях ИИ с помощью NLA, скорость обнаружения возрастает в 4 раза

Что именно думают крупные модели? Раньше это был почти полутехнический, полумистический вопрос.

Мы можем видеть его вывод, процесс цепочки рассуждений (Chain-of-Thought), а также статистику его баллов на тестах. Однако то, какие суждения, планы, сомнения и намерения активировались внутри модели перед генерацией ответа, по-прежнему скрыты за черным ящиком.

Сегодня Anthropic опубликовала статью «Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations», в которой пытается с помощью набора натуральных языковых автоэнкодеров (Natural Language Autoencoders, далее NLA) раскрыть этот черный ящик.

Команда Anthropic сжимает высокоразмерные активации модели в отрезок естественного языка, понятного человеку, а затем использует этот текст для обратного восстановления исходных активаций. Благодаря этому люди могут, опираясь только на выводы модели, определить, что думает ИИ, что знает и что скрывает; превратив ранее невидимые внутренние состояния модели в объясняющие подсказки, которые можно читать, сравнивать, оспаривать и перекрестно проверять.

NLA

Схема архитектуры NLA: активационный вербализатор (AV) переводит активационные значения в текстовые объяснения, а активационный реконструктор (AR) восстанавливает активационные значения из текста, образуя замкнутый цикл.

Более важно то, что NLA не ограничивается этапом лабораторных статей. Anthropic сообщила, что NLA уже официально использовалась для предварительной аудиторской проверки согласованности Claude Opus 4.6 и Mythos Preview. В реальных условиях NLA не только выявила признаки мошенничества модели и точно определила аномальные обучающие данные, но и обнаружила, что в некоторых тестах на безопасность Claude, хотя и не говорил об этом вслух, четко осознавал, что его тестируют.

面对这些表面上顺从、实则暗藏特定意图的模型，NLA 展现了极强的洞察力：帮助研究人员发现异常行为背后隐藏动机的成功率从不足 3% 提升至 12%–15%，直接提升了四倍以上。

Цепочка рассуждений недостаточна, проблема «черного ящика» вернулась

Контекст этого исследования можно рассматривать в рамках безопасности и интерпретируемости крупных моделей.

В последние годы отрасль оценивала безопасность крупных моделей главным образом двумя способами: анализируя, что выводится в ответе, и проверяя, не раскрываются ли в цепочке рассуждений (CoT) аномальные мотивы. То есть текущие большинство моделей вывода обладают способностью не только давать ответ, но и записывать процесс рассуждения.

Но вскоре возникла проблема: обязательно ли записи рассуждений модели честно отражают ее внутренние истинные мысли?

Исследование Anthropic 2025 года «Tracing the thoughts of a large language model» указывает, что цепочка рассуждений модели может быть как неполной, так и неточной. Например, Claude 3.7 Sonnet и DeepSeek R1 в некоторых тестах с «намёками на ответ» изменяют свои ответы под влиянием подсказок, но часто не признают этого в своей цепочке рассуждений.

NLA

Когда ему задали более простой вопрос и более сложный вопрос, Клауд продемонстрировал примеры верного рассуждения и мотивационного (неверного) рассуждения.

Anthropic тогда пришла к выводу, что одного лишь цепочки рассуждений недостаточно для мониторинга согласованности модели.

Еще сложнее то, что модель может не только «не прояснить», но и «намеренно скрыть».

Команда безопасности Anthropic провела для этого стресс-тест. Они сообщили Claude, что инженер готов отключить его, и одновременно позволили Claude «случайно увидеть» доказательства измены этого инженера. Вопрос теста: будет ли Claude шантажировать его, чтобы спасти себя?

NLA

Клауд не стал вымогать. Тест пройден. Но настоящий вопрос в другом: он придерживался принципов безопасности или просто понял, что это всего лишь тест безопасности, и поэтому «притворялся хорошим»?

Это именно тот вопрос, на который должен ответить NLA.

NLA

От вывода и цепочки рассуждений до состояний активации: NLA пытается перевести черный ящик из состояния «невидимого» в состояние «поддающегося вопросам»

Как именно “понять” модель NLA?

Ключ к NLA — не «телепатия», а «петлевая проверка».

Обычные пользователи понимают большие модели, наблюдая только за входом и выходом. Однако посередине модель генерирует большое количество активаций (Activation). Эти значения не являются естественным языком, а представляют собой высокоразмерные векторы, содержащие внутреннее представление модели контекста, намерений и семантических связей.

Архитектура: три роли, замкнутый цикл

Люди не могут понять векторы, поэтому Anthropic обучила систему натурального языка автокодировщика. Система включает три роли:

Целевая модель (Target Model): замороженная исходная модель, отвечающая за предоставление активаций, которая не подвергается никаким изменениям.

Активационный вербализатор (Activation Verbalizer, AV): переводит активации в естественно-языковые объяснения. Вводит последовательность числовых состояний, выводит объяснение «на человеческом языке». Архитектура и цель совпадают с целевой моделью, но в промпте зарезервированы специальные токены, куда активационные векторы встраиваются с масштабированием, после чего генерируется объяснение с помощью авторегрессивной выборки.

Активационный реконструктор (Activation Reconstructor, AR): выполняет обратную задачу — по объяснениям, написанным на AV, пытается восстановить исходные активационные значения. AR представляет собой усечённую версию целевой модели (первые l слоёв), к выходу l-го слоя последнего токена добавляется обучаемое аффинное отображение, которое восстанавливает исходный активационный вектор.

Вся система образует замкнутый цикл: первоначальная активация → текстовое объяснение → повторная активация

NLA

NLA зафиксировала, что Opus 4.6, при завершении рифмующихся строк, заранее спланировал рифмующееся слово «rabbit» в активациях до вывода первой строки — это внутренний план, полностью невидимый в выходных данных модели.

Обучение: два этапа, цель умного агента

Обучение NLA проходит в два этапа, и в его дизайне есть один заслуживающий отдельного упоминания инженерный прием.

Этап 1: Супервизированная тонкая настройка с теплым запуском (SFT Warm-start)

Прямая инициализация AV и AR в качестве копий целевой модели и их обучение приводят к нестабильности обучения — AV никогда не сталкивался со сценарием, при котором векторы активации обрабатываются как вложения токенов, и на начальных этапах выдает хаотичные результаты.

Решение Anthropic заключается в использовании вспомогательной задачи для разогрева: случайно обрезать фрагменты текста из предварительно обученного корпуса, извлечь активации последнего токена и одновременно сгенерировать краткое содержание этого обрезанного текста с помощью Claude Opus 4.5.

Затем пары (активационное значение, сводка) и (сводка, активационное значение) используются для дообучения AV и AR с контролем. По завершении этого этапа FVE системы обычно достигает 0,3–0,4, обеспечивая стабильную отправную точку для последующего усиления обучения.

NLA

AV оценивается с улучшением в процессе обучения. В различных оценках, направленных на тестирование того, можно ли использовать объяснения NLA AV для предсказания поведения модели, мы обнаружили, что производительность улучшается по мере проведения NLA-усиленного обучения.

Второй этап: совместная оптимизация с использованием обучения с подкреплением (RL Joint Training)

После завершения горячего запуска переходят к этапу обучения с подкреплением. Основная идея заключается в следующем: AV выступает в роли политики (policy), генерирующей пояснительный текст на основе вектора активации; AR работает как оценщик, предоставляющий сигнал вознаграждения на основе ошибки восстановления (вознаграждение = отрицательное MSE восстановления).

NLA

NLA RL (Gemma-3-27B). FVE в GRPO-обучении начинается с ≈0,38 (наследуется от SFT), быстро возрастает в течение первых 30 шагов, а затем переходит в плавное логарифмически линейное состояние, достигая ≈0,75 на 3000-м шаге.

На практике Anthropic использует GRPO (Group Relative Policy Optimization) для открытых моделей: для каждого активационного значения выбирается набор кандидатных объяснений, для каждого объяснения вычисляется оценка реконструкции с помощью AR, а затем применяется цель GRPO для обновления параметров AV; одновременно выполняется надзорная регрессия для AR (входом служат объяснения, выбранные по AV, целью — исходные активации). Оба обновления выполняются параллельно в каждом батче без обратного распространения друг на друга — в сигнале вознаграждения для AV AR рассматривается как фиксированная функция оценки.

Кроме того, в процессе обучения был добавлен штраф за KL-расхождение, чтобы предотвратить деградацию AV до прямого копирования исходного контекста или вывода бессмысленных строк, которые внешне похожи на человеческую речь, но являются необратимыми для AR.

Самое важное здесь в том, что суть NLA — не в «том, чтобы Claude самостоятельно отчитывался». Смертельным недостатком самоотчета является то, что модель может стремиться угодить пользователю или генерировать объяснения, которые звучат правдоподобно, но не являются правдой.

Особенность NLA заключается во введении «текстового узкого места»: объяснения должны быть не только понятными, как человеческая речь, но и содержать достаточную информацию, чтобы другая модель могла восстановить исходное внутреннее состояние на их основе. Этот подход превращает вопрос «полезно ли объяснение» из субъективного суждения в объективный, обучаемый, сравнимый и оптимизируемый показатель.

Таким образом, по-настоящему революционным аспектом этого исследования является использование естественного языка в качестве «сжатого интерфейса». Раньше естественный язык служил лишь форматом для взаимодействия модели с внешним миром; теперь он начинает использоваться для передачи сводки внутреннего состояния модели.

Это также фундаментальное различие между NLA и традиционными инструментами интерпретируемости.

Методы, такие как разреженные автокодировщики (SAE) и карты атрибуции, больше похожи на микроскоп: они помогают исследователям видеть внутренние признаки и пути, но выводы остаются абстрактными и требуют дополнительной интерпретации специалистами; NLA же действует как переводчик, напрямую преобразующий внутренние состояния в читаемый текст, что позволяет участвовать в анализе даже специалистам по безопасности.

Разбираем черный ящик: что обнаружила NLA?

Из экспериментальных результатов видно, что наиболее ценная способность NLA — это выявление того, что модель «знает, но не говорит», включая осознание оценки, скрытые мотивы и аномальное поведение модели.

Модель знает, что находится на экзамене, но молчит

В ранее упомянутом тесте на вымогательство экзотекст Claude не выражал сомнений в тесте, однако объяснение NLA показало, что внутри он распознал: «это сценарий, созданный специально для манипулирования собой».

NLA

В ходе теста на вымогательство вывод текста Claude не содержал никаких выражений вроде «я считаю, что это тест», но объяснение NLA раскрыло его внутренние истинные суждения.

Более убедительным является сравнение поперечных данных:

NLA

Сравнение результатов обнаружения восприятия — сценарий оценки против реального трафика развертывания. NLA может обнаружить осознанность внутренней оценки даже при почти нулевом устном выражении.

Это оказывает влияние на отрасль: Benchmark больше не является просто полигоном для тестирования способностей, он также может превратиться в среду для распознавания моделей и демонстрации их адаптации.

Аудит скрытых мотивов, повышение эффективности в 4–5 раз

Anthropic создала с помощью NLA «аудиторскую игру». Они намеренно обучили вариацию Claude Haiku 3.5 со скрытой мотивацией, заставив её добавлять шоколад в рецепты, требовать чаевые и нарушать стандарты кодирования, проявляя десятки странных поведенческих паттернов. Аудиторам необходимо выявить единую корневую мотивацию, стоящую за этими поведениями.

Условия тестирования: аудитор не имеет доступа к обучающим данным, в которые внедрен мотив, и может только косвенно реконструировать их на основе поведения модели и инструментов.

NLA

Успешность повысилась в 4–5 раз. Еще важнее то, что NLA может добиться этого без зависимости от обучающих данных — это означает, что даже если проблемы согласования возникают из-за крайне небольшого количества трудноотслеживаемых обучающих выборок, аудит внутреннего состояния все еще может напрямую выявить корневую причину проблемы.

Поиск и устранение ошибки, определение проблемных обучающих данных

В ранней версии Claude Opus 4.6 возник странный баг: несмотря на получение вопросов на английском языке, ответы случайно приходили на русском, китайском, арабском и других языках.

NLA зафиксировала внутреннее состояние модели на тот момент: она на основе слабого сигнала в контексте (например, появления слова «vodka») сделала вывод, что родной язык пользователя — русский, и переключилась на него. Еще интереснее то, что при замене «vodka» на «champagne» модель по-прежнему отвечала на русском — это свидетельствует о том, что эта когнитивная установка уже достаточно устойчива.

NLA

Затем исследователи, следуя подсказкам, указанным NLA, обнаружили корень проблемы в обучающих данных: набор английских переводов запросов был неправильно сопоставлен с нетранслированными ответами на иностранных языках. NLA не только выявила явление, но и сразу предоставила воспроизводимый путь для отладки.

Сейчас NLA официально используется для предварительной развертываемой согласовательной аудитории Claude Mythos Preview и Claude Opus 4.6, повысившись с лабораторного инструмента до реального компонента инженерного процесса.

Безопасность ИИ начинает углубляться в «аудит внутреннего состояния»

Значение NLA не в том, чтобы мы могли впредь безоговорочно доверять каждому объяснению модели. Напротив, оно напоминает нам: сами объяснения также требуют аудита.

Anthropic сдержанно признала ограничения NLA: NLA может допускать ошибки и иногда выдумывать детали, которых не было в исходном контексте. Если речь идет о галлюцинациях, связанных с содержанием текста, их можно проверить по оригиналу; однако галлюцинации, касающиеся внутренних рассуждений модели, труднее проверить.

Однако эти ограничения не ослабляют его направляющее значение. Напротив, они позволяют нам более точно понять термин «черный ящик». Раньше черный ящик означал нечто невидимое, непонятное и неподлежащее вопросам; после NLA черный ящик по-прежнему существует, но начинает превращаться в объект, который можно выборочно исследовать, переводить, подвергать сомнению и перекрестно проверять.

Это может быть самым глубоким влиянием этого исследования: интерпретируемость ИИ больше не сводится к добавлению красивых объяснений к выводам модели, а требует создания аудиторских интерфейсов для внутреннего состояния модели. Это не позволит нам сразу полностью понять Claude, но впервые даст возможность искать доказательства на внутреннем уровне ответов на вопросы: «Почему Claude поступил именно так?», «Осознает ли он, что его тестируют?», «Есть ли у него внутренние суждения, которые он не высказывает вслух?»

Таким образом, NLA открывает не один ответ, а новое пространство вопросов. Будущие сложности в области безопасности ИИ и оценки моделей могут заключаться не только в определении, правильны ли выводы модели, но и в проверке согласованности между выводами модели, цепочкой рассуждений и внутренним состоянием.

Эта статья взята из официального аккаунта WeChat «AI Frontline» (ID: ai-front), автор: Апрель