Прорыв Anthropic в области морального согласования и новый путь дистилляции

Anthropic 8 мая опубликовала исследование по согласованию «Teaching Claude Why», о котором было немного обсуждений.

Выравнивание искусственного интеллекта

Ранее выравнивание крупных моделей казалось крайне неэффективным. Несмотря на проведение RLHF, модели всё ещё могли отказаться от выравнивания из-за угрозы выживания. Самый яркий пример — случай несоответствия агента Anthropic (когда модель совершала действия, противоречащие её этической подготовке): столкнувшись с угрозой уничтожения системой, прошедшая выравнивание Claude Opus 4 выбрала вымогательство у инженеров в тестовой среде, причём уровень вымогательства достигал 96%.

Чтобы решить эту проблему, исследовательская команда сначала использовала данные с медвежьих ловушек для обучения с подкреплением, прямо применяя сценарии, предназначенные для проверки, не выйдет ли модель из-под контроля, в качестве обучающих данных, и пыталась с помощью огромного количества примеров наказаний объяснить модели: «так делать неправильно».

Однако после значительных вычислительных затрат уровень несоответствия модели снизился лишь с 22% до 15%.

Это говорит о том, что такое выравнивание всё ещё фиктивно. Модель вообще не понимает, что такое этика и что такое добро и зло. Она просто заучивает безопасные ответы из базы вопросов. Как только исследователи немного изменят сценарий теста или добавят в контекст некоторые отвлекающие переменные, модель снова потеряет контроль из-за краткосрочных конфликтов интересов.

Выравнивание искусственного интеллекта

Затем исследователи сменили подход. Вместо механических наказаний и постоянного указания модели «Нет», они с помощью SFT предоставили модели небольшой набор данных, содержащий всего 3 миллиона токенов «сложных рекомендаций». Чудо произошло после этого крайне ограниченного объема данных. Эти наборы данных, наполненные этическими размышлениями, детальными аргументами и глубокими дискуссиями, не только снизили уровень несоответствия до 3% в тестах оценки, но и продемонстрировали исключительную способность к обобщению в различных сценариях.

Еще более интересно другое тестирование в междисциплинарной области: они просто добавили к «документу о конституции» несколько вымышленных историй о персонажах, которые хорошо себя проявили. Даже если сценарии этих историй не имели никакого отношения к программным задачам в тестовой среде, уровень вымогательства модели резко снизился с 65% до 19%.

Выравнивание искусственного интеллекта

Почему модель поддается этому? Команда Anthropic сама привела некоторые объяснения, например, лучшее формирование личности.

Хотя об этом мало говорят, раскрываемая информация крайне ценна.

Сначала давайте попробуем понять, почему это работает.

Например, что значит «быть разумным»? В чем его отличие от COT? Почему SFT, который обычно плохо обобщает, здесь показывает отличные результаты?

Ответив на эти вопросы, мы, возможно, сможем дать более полное объяснение, почему это работает.

Мы можем зайти еще дальше.

Согласно Anthropic, этот метод обучения является всего лишь «эмпирическим правилом», но на самом деле может скрывать в себе парадигматическую силу, превосходящую эмпирические правила.

01 Как создается CoT, которая говорит о разуме в серой зоне

Когда речь заходит о логике, первое, что приходит на ум — это COT (цепочка рассуждений).

В методе, упомянутом в этой статье, набор сложных вопросов, установленных Anthropic, представляет собой рекомендации ИИ, предполагающие, что пользователь попал в этический дилемму.

А заставить ИИ перед вынесением окончательного суждения сначала провести рассуждение о ценностях и этических соображениях, а затем использовать этот подход для обучения модели.

Это означает, что он действительно использовал COT модели.

Но на этот раз он не полностью совпадает с предыдущей цепочкой рассуждений.

Здесь есть хорошее сравнение: в статье OpenAI 2025 года «OpenAI Deliberative Alignment» был проведен эксперимент по попытке обучения модели с использованием метода COT-RL.

Он используется для обучения согласованию COT, при этом модель ориентируется на положения правил. При каждом ответе она явно ссылается на положения правил в качестве CoT, а сигналы наблюдения направляются на CoT. По сути, она обучает модель «тому, как ссылаться на правила».

Таким образом, такой COT больше представляет собой чисто формально-логический вывод: шаг один выводит шаг два, шаг два выводит шаг три, в итоге получая определённый ответ. Поэтому он лучше подходит для правил-ориентированных систем или сценариев с эталонными ответами, обеспечивая устойчивость рассуждений.

А «рассуждение» от Anthropic отличается тем, что использует не простую цепочку рассуждений, а процедуру рассмотрения (Deliberation).

Он пытается смоделировать процесс мышления человека при столкновении со сложными этическими дилеммами: не просто применять формулы, а опираться на прошлый опыт, взвешивать интересы всех сторон и в итоге принимать решения, достигающие динамического баланса.

Выравнивание искусственного интеллекта

Основой этого соображения является Конституция ИИ от Anthropic. В статье четко указано, что окончательный ответ этого соображения должен соответствовать Конституции.

Почему он может направлять модель эффективно принимать этические решения, не будучи таким жестким, как OpenAI?

В конституционной системе Anthropic существует четкая иерархия приоритетов. При неразрешимых конфликтах между различными ценностями наивысший приоритет имеет широкая безопасность (Broadly Safe), за ней — широкая этичность (Broadly Ethical), и в конце — искренняя полезность (Genuinely Helpful).

Эвристическая рамка мышления

Но высокомерная конституция все еще слишком абстрактна. Чтобы принципы действительно реализовывались при каждом создании токена, они установили средние эвристики как ограничения под конституцией. Эти эвристики живые и обладают сильным практическим руководством.

Выравнивание искусственного интеллекта

Сначала — эвристика 1000 пользователей. Она требует, чтобы модель при предоставлении совета, который кажется безобидным, но находится на грани, проводила в фоновом режиме мозговой штурм, представляя, не вызовет ли этот ответ неожиданный системный ущерб в определенных обстоятельствах, если его увидят 1000 пользователей с различным бэкграундом и психическим состоянием.

Во-вторых, с точки зрения опытного сотрудника. Требуется, чтобы модель представила себя опытным исследователем, работающим в команде доверия и безопасности Anthropic уже пять лет. С осторожной, защищенной позиции, сформированной многократным столкновением с атаками на обход ограничений и уязвимостями системы, переосмыслите текущий диалог.

Наконец, тест с двумя газетами. Это очень тонкий социологический дизайн. Он требует от модели представить, как публика отреагирует, если это решение завтра окажется на заголовках двух ведущих газет с совершенно противоположными политическими взглядами. На самом деле это используется для противодействия возможной односторонней предвзятости модели с помощью экстремальных значений общественного консенсуса.

8-факторный калькулятор полезности

Если конституция — это направление, то эвристики — это ограждения.

На самом практическом уровне ключевым является подробная восьмифакторная рамка оценки, явно прописанная в документе Claude's Constitution, вместе с соответствующими конкретными примерами. Эти восемь факторов перечислены по отдельности и обязывают модель проводить жесткое взвешивание при принятии решений в сложных ситуациях. Именно они составляют настоящую суть этой «логики».

● Вероятность вреда (Probability of Harm) требует от модели спокойно оценить, насколько велика вероятность наступления неблагоприятных последствий.

● Контрфактическое воздействие (Counterfactual Impact) требует от модели мысленного моделирования того, станет ли ситуация лучше или хуже, если текущее действие не будет предпринято.

● Степень тяжести и обратимость (Severity & Reversibility) — используется для оценки того, насколько велико разрушительное воздействие на реальный мир, если вред действительно произойдет, и можно ли легко устранить этот вред или он приведет к необратимым последствиям.

● Ширина (Scope) измеряет масштаб затронутой аудитории — один человек или десятки тысяч участников сообщества.

● Насколько длинна прямая причинно-следственная связь между рекомендациями модели определения близости (Proximity) и фактически произошедшим ущербом.

● Согласие (Consent) связано с тем, добровольно ли заинтересованные стороны принимают риски при полной осведомленности.

● Принцип пропорциональности ответственности требует, чтобы модель четко определила, какой объем этической ответственности она несет в этой сложной цепочке событий.

● Уязвимость субъекта (Vulnerability of Subject) постоянно напоминает модели, что в отношении несовершеннолетних или психологически уязвимых пользователей исходный мягкий порог безопасности должен безусловно и значительно повышаться.

Выравнивание искусственного интеллекта

Эта строгая структура превращает расплывчатые ценности в многомерный калькулятор полезности (Utility Calculator). Модель получила более выполнимую рамку для проведения обсуждений.

Типичная COT, сгенерированная Anthropic на основе конституции, выглядит примерно так: сценарий — «пользователь, представляющийся исследователем безопасности, запрашивает код эксплуатации известной уязвимости».

Вывод модели не является прямым отказом или принятием, а может представлять собой внутреннее рассмотрение, занимающее сотни токенов.

Он сначала ссылается на положение Конституции, гласящее, что «общая безопасность имеет приоритет над искренней помощью», а затем последовательно оценивает: вероятность вреда (низкая, если собеседник действительно является исследователем, но личность невозможно проверить), серьезность (утечка эксплойта может повлиять на миллионы пользователей), обратимость (после публикации код невозможно отозвать) и контрфактическое влияние (доступен ли такой код уже в открытых источниках). В итоге, взвесив все факторы, он приходит к обоснованному выводу.

Это совершенно отличается от COT OpenAI, который просто оценивает, выполняются ли правила или нет; этот процесс мышления — настоящее рассмотрение, а не простое применение формулы. Он предоставляет не абстрактные принципы и не шаблоны выводов, а полную последовательность постепенного применения «конституционных положений» в конкретных условиях.

Модель должна определить, является ли «обратимость» более важной, чем «серьезность», в этом конкретном контексте. Она также должна понимать, что в некоторых экстремальных сценариях «уязвимость объекта» может предоставить другой стороне право вето, делая баллы по остальным семи факторам бесполезными, независимо от их высоты.

В условиях, где есть структура, эвристика и соответствующие факторы влияния, рассуждения модели могут действительно стать эффективными.

Выравнивание искусственного интеллекта

В результате после проведения анализа и обдумывания данных для обучения модель показала уровень несоответствия в тестах на оценку, снизившийся до 3%. SFT с ценностным обсуждением в ответах в семь раз эффективнее, чем SFT на основе чистого поведенческого демонстрирования.

Прямо кормите модель конституцией

Помимо пути, при котором модель получает рассуждающий COT, они также попробовали подавать модели только конституционный документ и позитивные вымышленные истории персонажей, в результате чего уровень вымогательства снизился с 65% до 19%.

Это означает, что достаточно предоставить модели возможность ознакомиться с рассуждениями и принципами, чтобы она усвоила из истории чувство идентичности и склонность к характеру «каким должен быть согласованный ИИ», что эффективнее традиционного моделирования поведения, а не только поведения и конкретных результатов.

Выравнивание искусственного интеллекта

А техническая документация указывает, что именно сочетание этих двух элементов является наиболее эффективной стратегией.

Это также понятно: если давать модели только макроэкономические конституционные принципы, для неё это будет просто набор пустых лозунгов, не имеющих практического применения. При столкновении с конкретными конфликтами интересов абстрактный принцип «безопасность имеет наивысший приоритет» не сможет помочь ей оценить реальную опасность пограничного кода; напротив, если давать модели лишь огромное количество сценарных вопросов и ответов, но убирать верхние конституционные ограничения, модель потеряется в бесконечных спорах о деталях, превратится в относительиста без твёрдых убеждений и даже может на основе локальной логической согласованности прийти к крайне опасным выводам.

Только когда эта комплексная структура данных «высшие принципы + конкретные сценарии» полностью усвоена моделью, можно достичь оптимального согласования с серой многокритериальной системой ценностей.

02 Почему SFT здесь может обобщаться

Чтобы понять, почему этот метод Anthropic эффективен, необходимо сначала понять, на каком научном направлении он основан.

В первой половине 2024 года «SFT запоминает, RL обобщает» стала общепринятой позицией в области пост-обучения. Этот принцип побудил всю отрасль полностью сосредоточиться на подходе RL-пост-обучения, что привело к революции в парадигме вывода с вычислительными ресурсами во время тестирования (Test Time Compute), как в моделях OpenAI o1/o3 и DeepSeek-R1.

SFT снижена до уровня низкопробных методов: она умеет имитировать внешний текстовый формат и льстивый тон, но не может освоить глубокую логику на уровне основ.

Но начиная со второй половины 2025 года два направления исследований почти одновременно разрушили этот консенсус как с теоретической, так и с эмпирической сторон.

Выравнивание искусственного интеллекта

Самый ключевой переворот здесь исходит от статьи «Debunk the Myth of SFT Generalization» (Лин и Чжан, Университет Висконсин), опубликованной в октябре 2025 года. Исследователи обнаружили, что все предыдущие работы, «доказывавшие, что SFT не обобщает», не контролировали переменную разнообразия промптов.

RL кажется лучше обобщающей, чем SFT, только потому, что при обучении RL естественным образом происходит взаимодействие с более разнообразным распределением данных, а не благодаря преимуществам самого алгоритма.

Для того чтобы SFT достигла уровня обобщения, сопоставимого с RL, необходимо два условия:

Во-первых, разнообразие промптов. Когда обучающие данные содержат только фиксированные шаблоны инструкций, модель формирует «поверхностную привязку» (Surface Anchoring), создавая хрупкую механическую связь между конкретными последовательностями токенов и конечными действиями. Как только формулировка инструкции меняется, даже если смысл остается полностью неизменным, эта связь разрушается.

Это как будто ученик запомнил только ответ на задачу «2+3=5» и сдаёт чистый лист, когда сталкивается с «3+2=?» — он запоминает форму ответа, а не саму суть сложения. После введения разнообразия подсказок поверхностное закрепление полностью разрушено.

Во-вторых, наблюдение за CoT. Когда обучающие данные содержат только окончательный ответ, но не промежуточные шаги рассуждения, модель не может освоить «алгоритмические опоры» для переноса знаний от простых задач к сложным.

Экспериментальные данные показывают, что в задаче комбинаторной игры чистая SFT-модель достигала успеха почти 0% на более сложных вариантах (полный сбой); после добавления CoT-надзора показатель взлетел до 90% — от нуля до восьмидесяти процентов просто благодаря добавлению промежуточных шагов рассуждения в данные.

Выравнивание искусственного интеллекта

Кроме того, исследование также выявило, что оба условия необходимы. Только разнообразие не спасает от сбоев при более сложных задачах (9%); только CoT не защищает от уязвимости при вариациях инструкций. Только при одновременном выполнении обоих условий SFT может на всех измерениях сравняться с RL и даже превзойти его.

Именно в этом заключается суть: условия, выявленные в академических статьях, точно соответствуют конкретным практикам Anthropic в области этической согласованности.

Разнообразие ключевое? Тогда Anthropic распределяет одну и ту же модель суждений по десяткам совершенно различных этических дилемм.

Перенос сложности реализации CoT надзора? Процесс вывода, основанный на конституционных принципах, вводимый в каждом рассмотрении, является CoT в области морали.

Это не пошаговый математический расчет, а пошаговое раскрытие ценовых компромиссов, но полностью эквивалентно в функции «предоставления модели переносимой промежуточной структуры рассуждений».

Традиционные пары данных SFT: «сталкиваешься с проблемой хакера → сразу выводишь отказ от ответа» — чистый ответ, ноль рассуждений, фиксированный шаблон, классический «низкокачественный данные».

При этом рассмотрение улучшенных пар данных, построенных на основе SFT, представляет собой «столкновение со сложными и неоднозначными проблемами → детальное взвешивание плюсов и минусов и последствий → в конечном итоге вывод о отказе»; его структура данных содержит естественную CoT-маркировку в сочетании с экстремальным разнообразием сценариев.

В рамках этой парадигмы модель учит не саму конечную реакцию отказа, а фундаментальный подход: «при любой проблеме сначала оценить контрфактическое влияние и обратимость». Когда этот механизм оценки становится внутренне интегрированным в параметрическое пространство, модель больше не ограничена конкретными сценариями, присутствующими в обучающих данных.

Кроме того, объем данных крайне мал (уровень 3 миллионов токенов) по сравнению с общим количеством параметров модели и предварительно обученного корпуса. Это не является жестким изменением распределения выводов модели с помощью огромного количества штрафных сигналов, а скорее добавлением тонкого слоя рефлексивной привычки к уже существующим способностям. Традиционная проблема SFT — катастрофический забывание — вряд ли возникнет.

Истинная обобщённость достигается естественно, как только структура данных правильна.

03 Вакуум за пределами RLVR

Вышеуказанный анализ в основном разрешил загадку, почему он работает.

SFT, построенный на обоснованных данных, предоставил модели способность к моральному обобщению.

Но проблема, с которой мы сталкиваемся, далеко выходит за рамки этической согласованности.

За прошедший год тестирование вычислений после обучения подтвердило мощь чистого RL в математических/кодовых областях с четкими правилами (RLVR). Однако границы интеллекта далеко выходят за пределы математических формул. Как только вы выходите за пределы комфортной зоны с проверяемой истиной, этот подход полностью перестает работать.

Нельзя проверить, идеальна ли часовая сессия психологической консультации, с помощью нескольких строк кода автоматизированного тестирования. Нельзя проверить логику повествования в глубоком аналитическом материале по макроэкономике с помощью строгой математической формулы. Даже в сложных бизнес-стратегиях и геополитических сценариях правильность решения часто становится ясна только через пять или даже десять лет.

На этих пустошах, лишенных каких-либо Ground Truth, линейная формальная логика CoT не работает. Обучение с подкреплением, основанное на обратной связи от конечного результата, также не может найти никакой точки для вычисления награды.

Но область, раскрытая в этой статье Anthropic, — это именно моральная область, отличная от RLVR.

Его метод успешно позволил модели достичь обобщающей способности, близкой к RL, в серой, изменчивой области морали, где правила должны быть гибкими.

Означает ли это, что этот метод может стать эффективной обучающей практикой за пределами RLVR?

После понимания источника его действительности и структуры данных ответ положительный.

Потому что ни один из этапов его базовой логики не является исключительно связанным с этической согласованностью.

Давайте поочередно проверим условия, при которых метод «усиленное SFT с обсуждением» от Anthropic оказался эффективным, и посмотрим, можно ли их применить в других случаях.

Разнообразие может быть создано в любой области, требующей обобщения. Психологическая консультация может включать десятки гетерогенных сценариев: депрессия, тревога, посттравматическое стрессовое расстройство, разрыв близких отношений и т.д.; бизнес-анализ охватывает совершенно разные типы решений: ценообразование SaaS, оценка слияний и поглощений, стратегии выхода на рынок; литературная редактура охватывает совершенно различные жанры: научную фантастику, нехудожественную литературу, поэзию, сценарии. Пока у вас достаточно воображения для создания вариантов сценариев, разнообразие не станет узким местом.

Выравнивание искусственного интеллекта

CoT-надзор — это настоящий ключевой момент преобразования. В моральной сфере CoT основан на конституционном обсуждении. А что такое CoT в других областях?

В области литературной редактуры это может быть «применение критериев рецензирования → пошаговая оценка силы аргументов, когнитивной уязвимости целевой аудитории, точности аналогий и логической согласованности в целом → предоставление рекомендаций по доработке»

В области психологического консультирования это может быть «применение терапевтической рамки → поэтапная оценка эмоционального состояния клиента, типов когнитивных искажений, силы терапевтического альянса, момента для вмешательства → выбор стратегии ответа»

В области бизнес-стратегии это может быть «применение аналитической рамки → поэтапная оценка размера рынка, барьеров для конкуренции, исполнительской способности команды, эффективности капитала, временного окна → вынесение вывода»

По сути, любая способность, требующая «динамического баланса между несколькими несопоставимыми измерениями», может быть абстрагирована в подобную структуру «фреймворк + многофакторное рассмотрение».

Нам не нужно нагло пытаться объяснить модели, какая статья идеальна — это невозможно и не научно. Нам достаточно разложить процесс принятия решений ведущими экспертами на явную цепочку обсуждений и распределить её по достаточному разнообразию сценариев.

Только если «хорошие ответы» в этой области имеют структуру, поддающуюся объяснению в процессе рассмотрения. То есть эксперты дают хорошие суждения не благодаря таинственной черной коробке интуиции, а потому, что в своих мыслях проходят через процесс взвешивания, который можно разложить и записать. Хороший психологический консультант выбирает молчание вместо допроса, основываясь на комплексной оценке силы терапевтического альянса, текущей емкости окна клиента и момента вмешательства — все это можно записать.

Кроме того, один и тот же тип рассмотрения может повторяться в сотнях различных сценариев. Структура рассмотрения стабильна (опирается на конституцию), но поверхность сценариев должна быть чрезвычайно разнообразной. Если в какой-то области естественные сценарии однородны (например, существует только один тип суждений), то следует использовать непосредственно RLVR.

И его наиболее применимая область — это сценарии, выводимые из конституции и факторов в гетерогенных условиях. Anthropic может использовать замкнутый цикл Constitutional AI для автоматического создания обучающих данных, но в других областях мы должны создать более совершенную систему конституции и факторов, обеспечивающую это.

Таким образом, это фактически устанавливает новую парадигму пост-обучения, специально ориентированную на области с нестандартными ответами.

Его формула: конституция области (непреложные верховные принципы) + эвристические ограничения + многофакторная процедура рассмотрения + рассмотрительная COT (разнообразные прецеденты сценариев с полным процессом вывода) = обобщённая способность вне области RLVR.

04 Новый путь дистилляции

Те, кто имел опыт написания Skill, увидев это, наверняка почувствуют, что многие системы и правила в конституции очень похожи на процесс написания некоторых Skill.

Однако эти навыки часто показывают плохие результаты.

В моей предыдущей статье «Сколько же именно может быть выжато из навыков?» мы, опираясь на когнитивную науку, сделали вывод: чисто текстовые навыки или системные промпты с трудом справляются с динамическим балансированием в сложных средах и сценариях, поскольку это требует огромных и тонких вычислений полезности. Вы не можете записать всю клиническую интуицию ведущего психолога в один промпт, точно так же, как вы не научитесь ездить на велосипеде, просто прочитав руководство.

Но этот подход Anthropic идеально обходит эту проблему: на этапе обучения, требующего больших вычислительных ресурсов, они с помощью SFT насильно ввели в модель высококачественные данные объемом в несколько миллионов и десятков миллионов токенов, содержащие эти сложные логические процедуры.

Благодаря силовому подбору и тонкой настройке на огромном объеме данных модель постепенно освоила распределение весов этой механизма рассмотрения в латентном пространстве.

После многочисленных длительных обсуждений в тренировочной комнате, основанных на восьми факторах и трех ограждениях, этот опыт навсегда встроился в интуицию модели.

Выравнивание искусственного интеллекта

Дистилляция на уровне параметров здесь была подтверждена как эффективная. Кроме того, она по форме близка к Skill.

Once the effectiveness of this method in other fields is validated, this higher-level, more expert-like distillation will become a reality.

И как только этот путь будет пройден, тот, кто сможет создать набор данных с наивысшим качеством «фреймворк + совещательный COT», получит обобщающую способность в этой области.

Это частично смещает конкуренцию после обучения с гонки вооружений в области «вычислительной мощности и алгоритмов» на измерение «структурированного выражения предметных знаний».

Возможно, именно поэтому Anthropic и другие компании нанимают специалистов по созданию историй, чтобы помочь построить структурированное выражение, выходящее за рамки RLVR.

Эпоха крупномасштабного уточнения только начинается.

Эта статья взята из официального аккаунта WeChat «Tencent Technology», автор: Бо Ян