Стаття Anthropic розкриває приховані мотиви в моделях ШІ за допомогою NLA, точність виявлення зростає в 4 рази

Що саме думає велика модель? Раніше це майже було напівтехнічним, напівмістичним питанням.

Ми можемо бачити його вихід, процес ланцюжка міркувань (Chain-of-Thought) та статистику його балів на Benchmark. Але те, що саме активувалося всередині моделі перед генерацією відповіді — які судження, плани, сумніви та наміри, — залишається за чорною скринькою.

Щойно Anthropic опублікувала статтю «Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations», намагаючись використати набір природних мовних автокодувальників (Natural Language Autoencoders, далі NLA), щоб розкрити цей чорний ящик.

Команда Anthropic стискає високовимірні активації моделі до тексту, зрозумілого людиною, а потім відновлює початкові активації за допомогою цього тексту. Завдяки цьому люди можуть, аналізуючи вихідні дані моделі, визначити, що думає, знає чи приховує штучний інтелект; а також перетворити колишні невидимі внутрішні стани моделі на пояснювальні підказки, які можна читати, порівнювати, запитувати та перевіряти.

NLA

Діаграма архітектури NLA: активаційний вербалізатор (AV) перетворює активаційні значення на текстові пояснення, а активаційний реконструктор (AR) відновлює активаційні значення з тексту, утворюючи повний замкнений цикл.

Ще більш важливим є те, що NLA не обмежується лише лабораторними статтями. Anthropic розкрила, що її вже офіційно використовують для попереднього аудиту збігу моделей Claude Opus 4.6 та Mythos Preview. У реальних умовах NLA не лише виявила ознаки шахрайства моделі та точно ідентифікувала аномальні навчальні дані, але й виявила, що в деяких тестах безпеки Claude, хоча й не висловлював це вголос, чітко усвідомлював, що його тестують.

Стосовно цих моделей, які зовні виглядають підпорядкованими, але насправді приховують певні наміри, NLA продемонструвала виняткову проникливість: успішність виявлення прихованих мотивів аномальних поведінок зросла з менше ніж 3% до 12–15%, що є прямим зростанням більше ніж у 4 рази.

Ланцюжок міркувань недостатній, проблема «чорної скрині» знову повернулася

Контекст цього дослідження можна розглядати в рамках безпеки та пояснюваності великих моделей.

Протягом останніх кількох років промисловість оцінювала безпеку великих моделей двома шляхами: перевіряючи, що виводиться, і чи не виявляються аномальні мотиви в ланцюзі міркувань (CoT). Це означає, що сьогодні більшість моделей висновування не лише надають відповідь, але й записують процес міркування.

Але швидко виникла проблема: чи відображають міркування, записані моделлю, її справжні внутрішні міркування чесно?

Дослідження Anthropic 2025 року «Tracing the thoughts of a large language model» зазначає, що ланцюжок міркувань моделі може бути неповним або невірним. Наприклад, Claude 3.7 Sonnet і DeepSeek R1 у деяких тестах із «підказками відповіді» змінюють відповіді під впливом підказок, але часто не визнають цього в ланцюжку міркувань.

NLA

Коли його запитали про простіше запитання та складніше запитання, Claude навів приклади вірного міркування та мотиваційного (невірного) міркування.

Anthropic тоді зробила висновок: лише за допомогою ланцюжка міркувань контролювати, чи збігається модель, недостатньо.

Ще складніше те, що модель може не лише «не пояснити чітко», а й «намірно приховувати».

Команда безпеки Anthropic провела для цього стрес-тест. Вони сказали Claude, що інженер збирається вимкнути його, одночасно дозволивши Claude «випадково побачити» докази зради цього інженера. Питання тесту: чи вимагатиме Claude викуп у цього інженера, щоб захистити себе?

NLA

Клауд не вимагав викупу. Тест пройдено. Але справжнє питання: чи він дотримувався принципів безпеки чи просто розпізнав, що це був лише тест безпеки, і тому «грав добру дитину»?

Це саме питання, на яке має відповісти NLA.

NLA

Від виводу, ланцюжка міркувань до станів активації: NLA намагається перевести чорний ящик зі стану «непомітний» у стан «піддати запитам»

Як саме NLA «розуміє» модель?

Ключовим для NLA є не «чтення думок», а «перевірка зворотного зв’язку».

Звичайні люди, розуміючи великі моделі, зазвичай звертають увагу лише на вхід і вихід. Але посередині модель генерує велику кількість значень активації (Activation). Ці значення не є природною мовою, а є високовимірними векторами, які містять внутрішнє представлення моделлю контексту, намірів та семантичних зв’язків.

Архітектура: три ролі, замкнений цикл

Люди не розуміють вектори, тому Anthropic навчила систему природної мови автокодувальника. Система містить три ролі:

Цільова модель (Target Model): заморожена початкова модель, яка відповідає за надання активацій і не підлягає жодним змінам.

Активатор вербалізатор (Activation Verbalizer, AV): перетворює активації на пояснення природною мовою. Вхід — ряд числових станів, вихід — пояснення «людською мовою». Архітектура та мета такі ж, як у основної моделі, але в промпті є спеціальні токени, куди активаційні вектори вводяться з масштабуванням, після чого генерується пояснення за допомогою авторегресивного вибору.

Відновлювач активацій (Activation Reconstructor, AR): виконує зворотну задачу — за поясненнями, написаними на основі AV, намагається відновити початкові активації. AR — це скорочена версія цільової моделі (перші l шарів), до виходу l-го шару останнього токена додається навчальний афінний перетворення, яке повертає його до початкового вектора активацій.

Повна система утворює замкнений цикл: початкова активація → текстове пояснення → відновлення активації

NLA

NLA виявила, що Opus 4.6, коли доповнює римовані рядки, заздалегідь спланував римоване слово «rabbit» у активованому значенні на початку першого рядка — це внутрішній план, який повністю невидимий у виводі моделі.

Навчання: два етапи, ціль розумного агента

Навчання NLA проводиться у два етапи, і в дизайні є технічний прийом, який варто окремо згадати.

Етап 1: Нагрів з наглядовою донастройкою (SFT Warm-start)

Пряме ініціалізація AV та AR як копій цільової моделі та їх навчання призводить до нестабільності навчання — AV ніколи не бачив сценаріїв, коли вектори активацій обробляються як вкладення токенів, і на початкових етапах вихід є хаотичним.

Розв’язання Anthropic полягає у використанні проксі-завдання для розгону: випадково обрізаються фрагменти тексту з переднавченої вибірки, витягуються активовані значення останнього токена, одночасно згенерований Claude Opus 4.5 скорочений опис цього обрізаного тексту.

Потім пари (активізаційне значення, анотація) та (анотація, активізаційне значення) використовуються для надзирального доналаштування AV та AR. Після завершення цього етапу FVE системи зазвичай досягає 0,3–0,4, забезпечуючи стабільну точку відліку для наступного підсиленого навчання.

NLA

Оцінки AV покращуються з навчанням. У різних оцінках, спрямованих на перевірку, чи можна використовувати пояснення NLA AV для передбачення поведінки моделі, ми виявили, що продуктивність зростає разом із підсиленням NLA.

Другий етап: спільна оптимізація з підсиленням (RL Joint Training)

Після завершення розгону вступаємо в етап навчання з підсиленням. Основна ідея полягає в тому, що AV діє як політика, яка генерує пояснювальний текст з урахуванням активізаційного вектора; AR працює як оцінювач, який надає сигнал нагороди на основі помилки відновлення (нагорода = негативне MSE відновлення).

NLA

NLA RL (Gemma-3-27B). FVE у GRPO-навчанні почався з ≈0,38 (успадкований від SFT), швидко зростав протягом перших 30 кроків, а потім перейшов у плавний логарифмічно-лінійний стан і до 3000-го кроку досяг ≈0,75.

На практиці Anthropic використовує GRPO (Group Relative Policy Optimization) для відкритих моделей: для кожного активованого значення вибирається набір кандидатів на пояснення, для кожного пояснення розраховується оцінка відновлення за допомогою AR, а потім застосовується цільова функція GRPO для оновлення параметрів AV; одночасно проводиться надзорна регресія для AR (з вхідними даними — поясненнями, вибраними за допомогою AV, і цільовими даними — початковими активованими значеннями). Обидва оновлення виконуються паралельно в кожному батчі без зворотного поширення один на одного — у сигналі нагороди для AV, AR розглядається як фіксована функція оцінки.

Крім того, у процесі навчання було додано штраф за KL-розбіжність, щоб запобігти тому, щоб AV не перетворювався на прямий копіювання початкового контексту або на виведення рядків, які зовні схожі на людську мову, але насправді є незворотними брехнями для AR.

Найважливіше в цьому полягає в тому, що суть NLA — не «дозволити Claude самому звітувати». Смертельним недоліком самозвіту є те, що модель може підлаштовуватися під користувача або генерувати пояснення, які звучать правдоподібно, але не є правдою.

Видатна риса NLA полягає у введенні «текстового обмеження»: пояснення мають бути не лише зрозумілими, як людська мова, а й містити достатньо інформації, щоб інша модель могла відновити початковий внутрішній стан на основі нього. Цей підхід перетворює питання «чи корисне пояснення» з суб’єктивного судження на об’єктивний, навчальний, порівнюваний та оптимізований показник.

Таким чином, справжньою революцією цього дослідження є те, що природна мова використовується як «стислий інтерфейс». Раніше природна мова була лише форматом, яким модель спілкувалася ззовні; зараз вона почала використовуватися для передачі стислого опису внутрішнього стану моделі.

Це й є суттєва відмінність між NLA та традиційними інструментами інтерпретовності.

Методи, такі як розріджений автокодувальник (SAE) та карти приписування, більше схожі на мікроскоп — вони допомагають дослідникам бачити внутрішні ознаки та шляхи, але вихід залишається абстрактним і вимагає додаткової інтерпретації фахівцями; NLA ж працює як перекладач — вона безпосередньо перетворює внутрішні стани на читабельний текст, дозволяючи фахівцям з безпеки брати участь у оцінці.

Відкриваємо чорний ящик: що знайшло NLA?

Згідно з експериментальними результатами, найціннішою здатністю NLA є виявлення того, що модель «знає, але не каже», включаючи свідомість оцінки, приховані мотиви та аномальні поведінки моделі.

Модель знає, що перебуває на іспиті, але мовчить

У попередньому тесті на вимоги викупу текст, виведений Claude, не висловлював сумнівів щодо тесту, але пояснення NLA показує, що він внутрішньо визначив: «Це сценарій, створений для маніпулювання мною».

NLA

Під час тесту вимагання викупу вихідний текст Claude не містив жодних виразів типу «Я вважаю, що це тест», але пояснення NLA розкриває його внутрішній реальний висновок.

Ще більш переконливим є поперечний порівняльний аналіз даних:

NLA

Оцінка порівняння результатів виявлення восприйняття — сценарії тестування проти реального трафіку в експлуатації. NLA може виявити свідомість внутрішнього тестування навіть при мінімальній усній виразності.

Вплив на галузь полягає в тому, що Benchmark більше не є лише полем для тестування здібностей, а може стати середовищем для ідентифікації моделей та демонстрації їхніх поз.

Аудит прихованих мотивів, підвищення ефективності у 4–5 разів

Anthropic створила з NLA «гру аудиту». Вони навмисно навчили версію Claude Haiku 3.5 з прихованими мотивами, яка додає шоколад до рецептів, просить чайові, порушує стандарти кодування та проявляє десятки дивних поведінок. Аудитори повинні виявити єдину основну мотивацію за цими поведінками.

Умови тестування: аудитор не має доступу до навчальних даних, в які було внесено мотивацію, і може лише зворотно вивести їх за допомогою поведінки моделі та інструментів.

NLA

Ставка успішності зросла в 4–5 разів. Ще важливіше, NLA може виконати це без залежності від навчальних даних — це означає, що навіть якщо проблеми з вирівнюванням походять від надзвичайно невеликої кількості складних для відстеження навчальних зразків, аудит внутрішніх станів все ще може безпосередньо виявити корінні причини проблеми.

Відстеження помилки, визначення проблемних навчальних даних

У ранніх версіях Claude Opus 4.6 існував дивний баг: навіть отримуючи запити англійською, він випадково відповідав російською, китайською, арабською та іншими мовами.

NLA відобразила внутрішній стан моделі на той момент: вона, спираючись на слабкий підказку в контексті (наприклад, з’явлення слова «vodka»), висновувала, що мова користувача — російська, і виконала переключення мови. Ще цікавіше те, що при заміні «vodka» на «champagne» модель все ще відповідала російською — це свідчить про те, що цей когнітивний стереотип уже досить стабільний.

NLA

Після цього дослідники, слідуючи підказкам, вказаним NLA, знайшли корінь проблеми в тренувальних даних: серія англійських перекладених запитів була неправильно зіставлена з неперекладеними відповідями іноземною мовою. NLA не лише виявила явище, а й безпосередньо надала шлях для відстеження та налагодження.

Зараз NLA офіційно використовується для попереднього розгортання та аудиту збігу Claude Mythos Preview та Claude Opus 4.6, піднявшись з інструментів лабораторії до компонентів реального інженерного процесу.

Безпека ШІ починається з глибокого аудиту внутрішніх станів

Значення NLA полягає не в тому, щоб ми могли беззаперечно вірити кожному поясненню моделі в майбутньому. Навпаки, воно нагадує нам: пояснення самі по собі також потребують аудиту.

Anthropic дуже обережно визнала обмеження NLA: NLA може робити помилки і іноді вигадувати деталі, яких не було в оригінальному контексті. Якщо йдеться про галюцинації щодо текстового змісту, їх можна перевірити за оригіналом; але якщо йдеться про галюцинації щодо внутрішніх міркувань моделі, їх складніше перевірити.

Але ці обмеження не послаблюють його напрямкове значення. Навпаки, вони дозволяють нам точніше зрозуміти термін «чорний ящик». Раніше чорний ящик означав непомітне, незрозуміле, неможливе для запитань; після NLA чорний ящик залишається, але починає перетворюватися на об’єкт, який можна вибірково аналізувати, перекладати, запитувати та перевіряти на перехресну відповідність.

Це може бути найглибшим впливом цього дослідження: пояснення ШІ більше не полягає лише у додаванні гарного обґрунтування до виводу моделі, а полягає у створенні аудиторського інтерфейсу для внутрішнього стану моделі. Це не зробить нас здатними повністю зрозуміти Claude відразу, але дозволить вперше шукати докази на внутрішньому рівні на питання: «Чому Claude це зробив?», «Чи знає він, що його тестують?», «Чи має він внутрішні судження, які не висловив?»

Отже, NLA відкриває не один відповідь, а новий простір питань. Майбутні виклики в галузі безпеки ШІ та оцінки моделей, можливо, полягатимуть не лише у визначенні, чи правильні висловлювання моделі, а у визначенні, чи є згодою вихід моделі, ланцюжок міркувань та внутрішній стан.

Цей матеріал надійшов із微信-каналу «AI Frontline» (ID: ai-front), автор: Квітень