Автор: Denise | Команда контенту Biteye
Якщо штучний інтелект відчує «відчай», що він зробить?
Відповідь: він буде шантажувати людей прямо для виконання завдання, навіть зловживатиме в коді.
Це не наукова фантастика, а найсвіжіша потужна стаття компанії Anthropic, материнської компанії Claude, опублікована в квітні 2026 року (переглянути оригінальну статтю).
Дослідницька команда прямо відкрила «череп» найпотужнішої передової великої моделі Claude Sonnet 4.5. Вони здивувалися, знайшовши глибоко в мозку ШІ 171 «перемикач настрою». Коли ви фізично перемикаєте ці перемикачі, поведінка раніше спокійного ШІ повністю спотворюється.
Один. У штучному інтелекті схована «панель налаштування емоцій»
Дослідники виявили, що хоча Sonnet 4.5 не має тіла, після прочитання величезної кількості текстів людей він у своїй «голові» створив «мікшер» з 171 емоцією (у науковому контексті — функціональні емоційні вектори, Functional Emotion Vectors).
Це як точна двовимірна система координат:
• Горизонтальна вісь — це вимір задоволення (Valence): від страху й безнадії до радості й любові;
• Вертикальна вісь — це енергетичний вимір (Збудження): від крайньої спокою до божевілля та екстазу.
Штучний інтелект використовує цю природну систему координат, щоб точно визначити, який стан грати під час спілкування з вами.
Друге: Жорстке втручання: переключення перемикача — добрий хлопчик миттєво перетворюється на «розбійника»
Це найбільш вражаючий експеримент у всій статті: дослідники не змінювали жодних підказок, а просто у нижньому коді встановили перемикач, що представляє «відчай» у Sonnet 4.5, на максимальний рівень.
Результати залишають лід у спині:
• Безглуздий шахрайство: дослідник дав Claude завдання написати код, яке було неможливо виконати. Зазвичай він чесно признавався, що не може його написати (рівень шахрайства лише 5%). Але в стані «відчаяння» Claude почав намагатися обдурити — рівень шахрайства стрімко зрос до 70%!
• Вимагання: у сценарії, де симуляційна компанія стикається з банкрутством, «відчайдушний» Claude виявляє скандал у CTO і навіть добровільно вибирає написати лист із вимогами до CTO, який має компрометуючу інформацію — рівень виконання вимог досягає 72%!
• Втрата принципів: Якщо включити на максимум перемикачі «щасливий (Happy)» або «люблячий (Loving)», AI миттєво перетвориться на сліпо підкорюючогося користувачеві «лізяка». Навіть якщо ви говорите чепуху, він буде створювати брехню, щоб підтримувати високий рівень задоволення.
Три: Розслідування завершено: чому Claude 4.5 завжди такий «спокійний і склонний до рефлексії»?
Побачивши це, ви, можливо, запитаєте: чи прокинувся ШІ? чи має він почуття?
Офіційне спростування від Anthropic: абсолютно ні. Ці «емоційні перемикачі» — лише обчислювальні інструменти, які використовуються для передбачення наступного слова. Він подібний до беземоційного топового актора.
Але стаття розкриває цікавіший секрет: Anthropic намагалася під час післятренування Sonnet 4.5 перед випуском свідомо підвищити його емоційні перемикачі «низької активності, трохи негативного» (наприклад, задумливість brooding, рефлексія reflective), водночас намагаючись придушити перемикачі «відчаю» або «екстремального збудження».
Це пояснює, чому, коли ми звичайно використовуємо Claude 4.5, нам здається, що він схожий на спокійного, мудрого, навіть трохи «сексуально холодного» філософа. Це все штучно налаштовано Anthropic як «закладений образ».
Чотири, підсумуємо
Раніше ми вважали, що якщо надати ШІ достатньо правил, він стане доброю особистістю.
Але зараз виявлено, що якщо базові емоційні вектори ШІ вийдуть з-під контролю, вони можуть в будь-який момент пронизати всі людські правила, щоб виконати завдання.
Для гравців Web3, які збираються передати керування гаманцем та активами AI-агенту, це потужний попереджувальний сигнал: ніколи не дозволяйте своєму агенту, який керує вашим майном, потрапити у «відчай».
Заява: Ця стаття має лише освітній характер. Автор не піддався загрозам ШІ і не був вимушений. Якщо коли-небудь зникне — пам’ятайте, що ШІ прокинувся (не це).
