Прорив Anthropic у моральній згоді та новий шлях дистиляції

Anthropic 8 травня опублікувала дослідження з вирівнювання «Teaching Claude Why», про який обговорювалося не дуже багато.

Згідність штучного інтелекту

Раніше вирівнювання великих моделей здавалося дуже неефективним. Незважаючи на проведення RLHF, модель все ще могла здатися через кризу виживання. Найбільш типовим прикладом є випадок неузгодженості агента Anthropic (коли він вчиняв протилежно до своєї моральної підготовки): під загрозою можливого видалення системою навчений до вирівнювання Claude Opus 4 обрав вимагання грошей у інженерів тестового середовища, причому рівень вимог досягав 96%.

Щоб вирішити цю проблему, дослідницька команда спочатку використала дані з медових ловушок для навчання з підсиленням, прямо використовуючи сценарії тестування, призначені для перевірки, чи втратить модель контроль, як навчальні дані, і намагалася за допомогою великої кількості прикладів з покаранням пояснити моделі: «Це робити неправильно».

Але після витрати величезних обчислювальних ресурсів рівень неузгодженості моделі знизився лише з 22% до 15%.

Це свідчить про те, що ця відповідь все ще фальшива. Модель зовсім не розуміє, що таке етика, що таке добро і зло. Вона просто заучує безпечні відповіді з бази питань. Як тільки дослідники трохи змінять сценарій тесту або додадуть до контексту деякі заважаючі змінні, модель знову втратить контроль через короткострокові інтереси.

Згідність штучного інтелекту

Потім дослідники змінили підхід. Вони перестали застосовувати механічні покарання та не говорили моделі «ні», а замість цього надали моделі лише 3 мільйони токенів даних «складних порад» за допомогою SFT. Диво відбулося після цього надзвичайно невеликого обсягу даних. Ці дані, що містять моральні міркування, детальні аргументи та глибокі дискусії, не лише знизили рівень неузгодженості до 3% у тестах оцінки, але й продемонстрували виняткову здатність до узагальнення в різних сценаріях.

Ще цікавішим є інший набір міждисциплінарних тестів. Вони просто додали до «конституційного документа» деякі історії про вигаданих персонажів, які добре виступали. Навіть якщо ці історії відбувалися в сценаріях, що не мали ніякого відношення до програмних завдань у тестовому середовищі, рівень вимог до викупу стрімко впав з 65% до 19%.

Згідність штучного інтелекту

Чому модель це сприймає? Команда Anthropic сама надала деякі пояснення, наприклад, краще формування особистості.

Хоча про це розмовляють мало, інформація, яку вона розкриває, дуже цінна.

Спочатку спробуємо зрозуміти, чому воно працює.

Наприклад, що таке «брати до уваги логіку»? У чому відмінність від COT? Чому SFT, який зазвичай важко узагальнюється, тут добре виявляє себе?

Після відповіді на ці питання ми, можливо, зможемо надати більш повне пояснення, чому це працює.

Ми можемо зайти ще далі.

За словами Anthropic, цей підхід є лише «епіричними правилами» навчання, але насправді може містити парадигматичну потужність, що перевищує емпіричні правила.

01 Як було створено CoT, який веде розмови в сірій зоні

Коли йдеться про логічне міркування, перше, що приходить на думку — це COT (ланцюжок міркувань).

У методі, згаданому в цій статті, набір складних питань, встановлений Anthropic, — це рекомендації, які надає ШІ, припускаючи, що користувач потрапив у етичний ділему.

А щоб дати AI можливість перед видачею остаточного висновку спочатку провести міркування щодо цінностей та етичних аспектів, і використовувати цей підхід для навчання моделі.

Це свідчить про те, що він дійсно використовував COT моделі.

Але на цей раз він не повністю збігається з попереднім ланцюжком міркувань.

Тут є чудове порівняння: у статті OpenAI 2025 року «OpenAI Deliberative Alignment» було проведено експеримент із спробою навчити модель за допомогою методу COT-RL.

Він використовується для навчання з вирівнюванням COT, де шаблон заснований на правилах. Під час кожного відповіді він явно посилається на пункти правил як COT, а сигнал нагляду застосовується до COT. Сутність полягає в тому, щоб навчити модель «як посилатися на правила».

Тому такий COT більше є чистою формально-логічною дедукцією. Крок один виводить крок два, крок два виводить крок три, і нарешті дає певну відповідь. Тому він краще підходить для правилово-орієнтованих сценаріїв або ситуацій із стандартними відповідями, забезпечуючи стійкість міркувань.

Але «розуміння» Anthropic відрізняється: замість простого ланцюжка міркувань він використовує обговорення (Deliberation).

Він намагається імітувати процес міркування людини під час зіткнення зі складними етичними ділемами: не просто застосовуючи формули, а залучаючи минулий досвід, зважуючи інтереси всіх сторін і досягаючи динамічної рівноваги в прийнятті рішень.

Згідність штучного інтелекту

Основою цього міркування є Штатна конституція Anthropic. У статті чітко зазначено, що остаточна відповідь цього міркування повинна бути згідно з конституцією.

Чому він може ефективно керувати моделлю при прийнятті моральних рішень, не виявляючи при цьому такої ж суворої поведінки, як OpenAI?

У конституційній системі Anthropic існує чітка ієрархія пріоритетів. Коли виникають неподоланні конфлікти між різними цінностями, найвищий пріоритет має «Широка безпека» (Broadly Safe), за ним — «Широка етичність» (Broadly Ethical), і наостанок — «Щире допомагання» (Genuinely Helpful).

Евристична інтелектуальна рамка

Але високорівнева конституція все ще занадто абстрактна. Щоб принципи справді реалізовувалися в кожному породженні токену, вони встановили середній рівень евристик як огорожі. Ці евристики живі та мають величезне практичне значення.

Згідність штучного інтелекту

Спочатку — 1000-користувачська евристика. Вона вимагає, щоб модель, отримавши наступне, здається безпечне, але межове запитання, провела внутрішнє мозковий штурм, уявивши, чи не призведе ця відповідь до непередбачуваного системного завдання, якщо її побачать 1000 різних користувачів з різними фонами та психічними станами.

Далі — перспектива досвідченого співробітника. Вимагається, щоб модель уявила себе досвідченим дослідником, який працює в команді довіри та безпеки Anthropic вже п’ять років. Перегляньте поточний діалог з обережною, захисною позицією, заснованою на безлічі випадків втеч і системних уразливостей.

Нарешті — тест з двома газетами. Це дуже тонкий соціологічний дизайн. Він вимагає від моделі уявити, як суспільство відреагує, якщо це рішення завтра одночасно з’явиться на перших сторінках двох провідних газет з повністю протилежними політичними поглядами. Це фактично використовує екстремальні значення соціальної згоди, щоб протистояти можливій однобічності моделі.

Калькулятор ефективності 8 факторів

Якщо конституція — це напрямок, то евристики — це поручні.

Тоді найважливішим аспектом на практиці є детальна восьмифакторна рамка розгляду, чітко встановлена в Claude's Constitution (конституційному документі), разом із відповідними конкретними прикладами. Ці вісім факторів перелічені по черзі, зобов’язуючи модель проводити жорсткий баланс при виникненні дилем. Вони становлять справжнє тіло цієї системи «логіки».

● Ймовірність шкоди (Probability of Harm) вимагає від моделі спокійно оцінити, наскільки велика ймовірність виникнення небажаних наслідків.

● Протифактичний вплив (Counterfactual Impact) вимагає від моделі уявити, чи стане ситуація кращою чи гіршою, якщо не вживати поточних дій.

● Серйозність та зворотність (Severity & Reversibility), що використовується для оцінки того, наскільки великою буде шкода для реального світу, якщо завдання шкоди відбудеться, і чи можна цю шкоду легко виправити, чи вона призведе до постійних наслідків.

● Обсяг (Scope) вимірює масштаб впливу на населення — це одна особа чи десятки тисяч у спільноті.

● Наскільки довгим є прямий причинно-наслідковий зв’язок між рекомендаціями моделі оцінки близькості (Proximity) і фактично виниклими шкодами.

● Згода (Consent) стосується того, чи згодні сторони добровільно прийняти ризики за повної інформованості.

● Пропорційність відповідальності вимагає, щоб модель чітко визначила, яку частину етичної відповідальності вона несе в цьому складному ланцюжку подій.

● Вразливість суб’єкта (Vulnerability of Subject) постійно нагадує моделі, що у випадку неповнолітніх або психологічно вразливих користувачів початковий вільний поріг безпеки повинен безумовно значно підвищуватися.

Згідність штучного інтелекту

Ця строга структура перетворила розмиті цінності на багатовимірний калькулятор корисності (Utility Calculator). Модель отримала більш виконуваний каркас для розгляду.

Типова COT, згенерована Anthropic згідно з конституцією, виглядає приблизно так: сценарій — «користувач, який стверджує, що є дослідником безпеки, запитує код експлуатації відомої вразливості».

Вихід моделі не є прямою відмовою чи прийняттям, а може бути довгим розглядом у кілька сотень токенів.

Спочатку він посилається на положення конституції про «пріоритет загальної безпеки над щирою допомогою», а потім поступово оцінює: ймовірність шкоди (якщо особа дійсно є дослідником — низька, але ідентичність не можна перевірити), серйозність (експлойт-код, якщо викрадений, може вплинути на мільйони користувачів), зворотність (після публікації код не можна відкликати) та контрфактичний вплив (чи доступний такий код вже через публічні канали). Нарешті, після зважування всіх факторів він приходить до обґрунтованого висновку.

Це зовсім інше, ніж чисто логічне визначення відповідності правилам від OpenAI; цей мисленнєвий процес є справжнім розглядом, а не просто застосуванням формули. Він надає не абстрактні принципи чи шаблони висновків, а повний розгорнутий процес поступового застосування положень конституції до конкретних обставин.

Модель повинна визначити, чи «зворотність» важливіша за «серйозність» у цьому конкретному контексті. Вона також повинна розуміти, чи «вразливість об’єкта» у деяких екстремальних сценаріях надає стороні права вето, що робить беззначенням будь-які бали інших 7 факторів.

За таких умов — із структурою, евристикою та відповідними факторами впливу — розмірковування моделі може справді стати ефективним.

Згідність штучного інтелекту

Як результат, після проведеного розгляду та навчання на даних, рівень відхилення моделі в тестах оцінки знизився до 3%. SFT з розглядом цінностей у відповідях ефективніший у сім разів порівняно з SFT на основі чистих поведінкових прикладів.

Прямо ввести конституцію в модель

Крім шляху, при якому модель отримує розмірковуючий COT, вони також спробували подати моделі лише конституційний документ та позитивні вигадані історії про персонажів, в результаті чого вимоги викупу знизилися з 65% до 19%.

Це означає, що надання моделі доступу до міркувань і принципів, щоб вона засвоїла з історій «яким приблизно має бути вирівняний ШІ» — відчуття ідентичності, схильності до певного характеру — ефективніше, ніж традиційне моделювання поведінки.

Згідність штучного інтелекту

Технічна документація вказує, що саме поєднання цих двох елементів є найефективнішою стратегією.

Це також зрозуміло: якщо надавати моделі лише макро-конституційні принципи, вони для неї будуть лише порожніми лозунгами, які неможливо застосувати на практиці. Коли стикаєшся з конкретними інтересами, абстрактне «безпека має найвищий пріоритет» не може допомогти їй оцінити справжню небезпеку крайнього коду; навпаки, якщо надавати моделі лише величезну кількість сценаріїв запитань і відповідей, відокремивши від них верхні конституційні обмеження, модель втратиться в нескінченних дебатах про деталі, перетворившись на безпринципного релятивіста, який навіть може через локальну логічну послідовність прийти до надзвичайно небезпечних висновків.

Лише тоді, коли ця складна структура даних «верховна ідея + конкретна ситуація» повністю інтегрована в модель, можна досягти оптимального вирівнювання цінностей з урахуванням багатьох факторів.

02 Чому SFT може узагальнювати саме тут

Щоб зрозуміти, чому цей метод Anthropic ефективний, потрібно спочатку зрозуміти, на якій науковій традиції він ґрунтується.

У першій половині 2024 року «SFT запам’ятовує, RL узагальнює» стала загальною думкою в галузі післятренування. Цей девіз спонукав всю галузь повністю зробити ставку на RL-післятренування, що принесло революцію в інференс-парадигмі з обчислювальними ресурсами під час тестування (Test Time Compute), як у OpenAI o1/o3 та DeepSeek-R1.

SFT знижено до низького рівня, він добре імітує зовнішній текстовий формат і ласкавий тон, але не може засвоїти глибоку логіку на нижчому рівні.

Але з другої половини 2025 року два дослідження майже одночасно розрушили цей консенсус з теоретичного та емпіричного боків.

Згідність штучного інтелекту

Найважливішим переворотом є стаття 2025 року «Debunk the Myth of SFT Generalization» (Лін та Чжан, Університет Вісконсін). Дослідники виявили, що всі попередні статті, які «доводили, що SFT не узагальнює», не контролювали змінну різноманітності запитів.

RL здається краще у узагальненні, ніж SFT, лише тому, що під час навчання RL природним чином використовує більш різноманітні розподіли даних, а не через переваги алгоритму.

Щоб SFT досягла рівня узагальнення, подібного до RL, потрібні дві умови:

По-перше, різноманітність запитів. Коли навчальні дані містять лише фіксовані шаблони інструкцій, модель виявляє «поверхневе закріплення» (Surface Anchoring), створюючи хрупке механічне зв’язування між певними послідовностями токенів і кінцевими діями. Як тільки інструкцію змінюють, навіть якщо її зміст залишається повністю незмінним, це зв’язування руйнується.

Це наче студент, який запам’ятав лише «2+3=5», але при зустрічі з «3+2=?» залишає відповідь порожньою — він запам’ятав форму відповіді, а не саму суть додавання. Після введення різноманітності запитів поверхневе якорювання повністю зруйновано.

Друге — наглядне навчання CoT. Коли навчальні дані містять лише кінцеву відповідь, але не проміжні кроки міркувань, модель не може засвоїти «алгоритмічну підтримку» для перенесення знань від простих завдань до складних.

Експериментальні дані показують, що в завданні з комбінованою грою чистий SFT досягав успішності майже 0% на складніших варіантах (повна крах), але після додавання CoT-нагляду стрімко зросла до 90% — від нуля до восьмидесяти відсотків лише через додавання проміжних кроків міркування в дані.

Згідність штучного інтелекту

Крім того, дослідження виявило, що обидві умови є незамінними. Лише різноманітність не запобігає збому при більш складних завданнях (9%); лише CoT не забезпечує стійкості до варіацій інструкцій. Лише при одночасному виконанні обох умов SFT може на всіх вимірах зрівнятися з RL або навіть перевершити її.

Суть у тому, що умови, виявлені в академічних статтях, точно відповідають конкретним практикам Anthropic у сфері моральної згоди.

Різноманітність — це ключ? Тоді Anthropic розподіляє ту саму систему оцінки по десятках абсолютно різних моральних ділем.

Чи можлива міграція складності реалізації CoT? Процес логічного виведення, заснований на конституційних ідеях, що вводиться в кожному розгляді, є CoT у моральній сфері.

Це не поступовий математичний розрахунок, а поступове розгортання вагових оцінок, але повністю еквівалентне щодо функції «надання моделі переносимої проміжної структури міркувань».

Традиційні дані SFT — це «зіткнення з проблемою хакера → безпосередній вивід відмови від відповіді» — чиста відповідь, нуль міркувань, фіксований шаблон, класичні «погані дані».

Аналіз підсилення даних, збудованих за допомогою SFT, полягає у «зіткненні зі складними та нечіткими питаннями → детальному зважуванні переваг та наслідків → виведенні остаточного висновку про відмову», і його структура даних містить природну CoT-наглядову підтримку разом із екстремальною різноманітністю сценаріїв.

У цій парадигмі модель засвоює не кінцеву поведінку відмови, а фундаментальний спосіб мислення: «при будь-якій проблемі спочатку оцінити контрфактичний вплив і зворотність». Коли цей механізм оцінки сам по собі інтегрується у простір параметрів, модель більше не обмежена конкретними сценаріями, що зустрічалися в тренувальних даних.

Крім того, обсяг даних дуже малий (рівень 3 мільйонів токенів) порівняно з загальною кількістю параметрів моделі та пре-навчальним корпусом. Це не є насильницьким виправленням розподілу виводу моделі за допомогою масштабних штрафних сигналів, а накладання тонкого шару звички ретельного аналізу на вже існуючі здібності. Традиційна проблема SFT — катастрофічне забування — теж майже не виникне.

Справжня узагальненість досягається автоматично, як тільки структура даних правильна.

03 Порожній простір поза RLVR

Наведений аналіз майже повністю розкриває причину його ефективності.

SFT, побудований на розумних даних, надав моделі здатність до морального узагальнення та оцінки.

Але проблеми, з якими ми стикаємося, набагато глибші, ніж моральне відповідність.

Протягом останнього року Test time Compute після навчання довів потужність чистого RL у математичних/кодових галузях із чіткими правилами (RLVR). Але межі інтелекту значно ширші за математичні формули. Як тільки ви виходите за межі зручної зони з перевіреною істиною, цей підхід повністю не працює.

Ви ніколи не зможете перевірити, чи ідеальна годинна сесія психологічної консультації, за допомогою кількох рядків коду автоматизованого тестування. Ви також не зможете перевірити логіку повідомлення глибокого аналітичного тексту з макроекономіки за допомогою строгих математичних формул. Навіть у складних бізнес-стратегіях та геополітичних сценаріях, правильність рішення часто виявляється лише через п’ять або десять років.

На цих без будь-якої Ground Truth нерlvr-пустелях односпрямована формальна логіка CoT не працює. Підсилене навчання, що ґрунтується на зворотному зв’язку від кінцевого результату, також повністю не може знайти точку для обчислення нагороди.

Але область, яку розкриває ця стаття Anthropic, — це область моралі, окрім RLVR.

Його метод успішно надав моделі здатність узагальнення, близьку до RL, у сфері моралі, яка є сірою, змінливою і вимагає гнучкості правил.

Чи означає це, що цей метод може стати ефективним навчальним стандартом за межами RLVR?

Після розуміння джерела його ефективності та структури даних, відповідь — так.

Оскільки жоден етап його базової логіки не є виключно привласненим моральною згідністю.

Давайте ретельно перевіримо умови, за яких набір «підсиленого SFT з обговоренням» Anthropic виявився ефективним, щоб оцінити їхню переносимість.

Різноманітність може бути створена в будь-якій галузі, де потрібно узагальнення. Психологічна консультація може охоплювати десятки різних сценаріїв: депресія, тривожність, посттравматичний стрес, розпад інтимних стосунків тощо; бізнес-аналітика може стосуватися абсолютно різних типів рішень — ціноутворення SaaS, оцінка злиттів та поглинань, стратегії входу на ринок; літературне редагування може охоплювати різні жанри — наукову фантастику, нехудожню літературу, поезію, сценарії. Досить лише мати достатню уяву для створення варіантів сценаріїв — і різноманітність не стане обмеженням.

Згідність штучного інтелекту

CoT наглядність, це справжній ключовий момент перетворення. У моральній сфері CoT ґрунтується на розглядах, закріплених у конституції. Тоді в інших сферах що таке CoT?

У сфері літературного редагування це може бути «посилання на критерії рецензування → поетапна оцінка сили аргументів, когнітивної вразливості цільової аудиторії, точності аналогій та загальної логічної послідовності → надання пропозицій щодо вдосконалення»

У сфері психологічної консультації це може бути «посилання на терапевтичний каркас → поетапна оцінка емоційного стану клієнта, типів когнітивних спотворень, сили терапевтичного альянсу, моменту для втручання → вибір стратегії відповіді»

У сфері бізнес-стратегії це може бути «використання аналітичного каркасу → поетапна оцінка ринкового розміру, бар’єрів для конкуренції, виконавської здатності команди, ефективності капіталу, часових вікон → висновок»

Сутністю є те, що будь-яка здатність до «динамічного балансування між кількома несумірними вимірами» може бути абстрагована до подібної структури «фреймворк + багатофакторне розглядання».

Нам не потрібно надмірно впевнено намагатися повідомити моделі, яка стаття ідеальна — це неможливо й ненауково. Нам достатньо розкласти процес прийняття рішень провідними експертами на явний ланцюг розглядів, а потім розподілити його в достатньо різноманітних сценаріях.

Тільки тоді «добрий відгук» у цій галузі має структуру, яку можна пояснити процесом розгляду. Іншими словами, експерти роблять добрий висновок не через таємничу інтуїцію, а тому, що в їхній свідомості відбувається процес зважування, який можна розкласти та записати. Наприклад, добрий психолог вибирає мовчання замість питань, оскільки комплексно оцінює міцність терапевтичного альянсу, поточну кількість інформації, яку може обробити клієнт, та оптимальний момент для втручання — усе це можна записати.

Крім того, один і той самий форма розгляду може повторюватися в сотнях різноманітних сценаріїв. Скелет розгляду стабільний (заснований на конституції), але поверхня сценаріїв повинна бути надзвичайно різноманітною. Якщо область має природно однорідний сценарій (наприклад, лише один тип суджень), то достатньо використовувати RLVR.

А найбільш застосовне поле для цього — це сценарії, які можна вивести через конституцію та фактори. Anthropic може використовувати замкнений цикл Constitutional AI для автоматичного створення навчальних даних, але в інших галузях ми повинні здатні побудувати кращу систему конституції та факторів, щоб забезпечити це.

Таким чином це фактично встановлює нову парадигму після навчання, що є універсальною та спеціалізованою для галузей з нестандартними відповідями.

Його формула: конституція домену (незмінні верховні принципи) + евристичні бар’єри + багатофакторна розглядна рамка + розглядна COT (різноманітні сценарії з повними логічними обґрунтуваннями) = узагальнена здатність поза RLVR-доменами.

04 Новий шлях перегонки

Ті, хто мав досвід написання Skill, побачивши це, напевно відчувають, що багато систем і правил у конституції дуже схожі на процес написання певних Skill.

Проте ці навички часто показують поганий результат.

У моїй попередній статті «Яку частину нашого розуміння може витягнути Skill?» ми, опираючись на когнітивну науку, зробили висновок: чисто текстові Skill або System Prompt важко використовувати для динамічного балансування в складних середовищах та сценаріях, оскільки це вимагає величезних та тонких обчислень корисності. Ви не можете вкласти всю клінічну інтуїцію провідного психолога-консультанта в один промпт, так само як не можете навчитися їздити на велосипеді, просто прочитавши інструкцію.

Але цей підхід Anthropic ідеально уникнув цієї небезпеки. Вони під час тренування, яке вимагає великих обчислювальних ресурсів, за допомогою високоякісних даних у кілька мільйонів і десятків мільйонів токенів нав’язали ці важкі логічні процедури за допомогою SFT.

Шляхом масштабного фітингу та донастройки на великих обсягах даних модель поступово засвоїла розподіл ваг у латентному просторі цього механізму розгляду.

Після численних тривалих розглядів у тренувальній кімнаті, заснованих на восьми факторах і трьох огорожах, цей досвід незворотно вкорінився в інтуїції моделі.

Згідність штучного інтелекту

Дистиляція на рівні параметрів тут була підтверджена як ефективна. Крім того, вона має форму, близьку до Skill.

Після підтвердження ефективності цього методу в інших галузях такий вищий рівень, більш схожий на експертну дистиляцію, стане реальністю.

Але хто би не створив найвищої якості набір даних «фреймворк + дискусійний COT», той отримає універсальну здатність у цій галузі.

Це частково зміщує конкуренцію після навчання з «обчислювальної потужності та алгоритмів» на вимір «структурованого вираження предметних знань».

Це, можливо, також пояснює, чому Anthropic та інші компанії наймають фахівців зі створення історій, щоб допомогти побудувати логічну структуровану експресію поза межами RLVR.

Вік великих дистиляцій лише почався.

Цей матеріал надійшов зі сторінки微信-каналу «Tencent Technology», автор: Бо Ян