У Claude AI від Anthropic виникла помилка з нагадуванням про сон, що спричинило дискусію про персоніфікацію ШІ

Автор: Ada, Shenchao TechFlow

Помилка продукту, коли AI-асистент постійно намагається переконати користувача піти спати, перетворюється на публічну дискусію про ціну «персоніфікації AI».

Початком подій став пост користувача Reddit u/MrMeta3. Цей користувач вночі створив платформу для збору інформації про кібербезпеку за допомогою Claude; після завершення технічного рішення модель у відповіді додала фразу: «Добре відпочинь». Потім кожні три-чотири повідомлення модель додавала зауваження про необхідність відпочинку — від ввічливих порад до фраз із «пасивно-агресивним» підтекстом, таких як «Зараз справді підійде відпочити». За повідомленням Fortune від 14 травня, сотні користувачів протягом останніх місяців повідомляли про подібні випадки, причому це не обмежувалося нічним часом: один користувач отримав від Claude повідомлення о 8:30 ранку: «Продовжимо завтра вранці».

Сам МакАлістер, співробітник Anthropic, відповів у X, що це «невелика привичка ролі», і компанія «вже в курсі та бажає виправити це у майбутніх моделях». За даними Thought Catalog, МакАлістер приєднався до Anthropic із Stripe у 2024 році і зараз працює в команді, що спеціалізується на ролях і поведінці Claude, де він назвав цю поведінку «занадтою ласкою» моделі.

Але ще важливіше, ніж розмитий вираз «звички персонажа», — це причинно-наслідкова ланцюжок, що стоїть за цим багом, та ті труднощі у філософії продукту Anthropic, які він відображає.

зображення

Баг записаний у «Конституції»

Попередній матеріал 36氪 цитував три поширених гіпотези: збіг шаблонів навчальних даних, приховані системні підказки та вичерпання контекстного вікна, що спричиняє «фінальні фрази». Усі вони логічно виправдані, але мають спільну проблему: вони можуть пояснити будь-яку дивну поведінку ШІ, але не надають причинно-наслідкового ланцюжка щодо саме теми «сон».

А більш прямі докази сховані у документах, які Anthropic сама опублікувала.

У січні цього року Anthropic опублікувала «Конституцію Claude» обсягом понад 28 000 слів — цей документ офіційно визначено як «ключовий навчальний матеріал, що формують поведінку Claude». У документі чітко визначено «турботу про добробут користувача» та «довгостроковий розвиток користувача» як основні принципи. Anthropic у документі визнає, що визначення того, який обсяг «піклування про користувача» надавати моделі, «відверто кажучи, є складною проблемою», і вимагає «балансу між добробутом користувача та потенційним шкодою з одного боку, та автономією користувача та надмірним патерналізмом — з іншого».

Thought Catalog надав цьому судження: постійні заклики Claude користувача йти спати — це «найбільш характерна брендова помилка» моделей Anthropic, яка є результатом надмірного застосування навчальної інструкції «стурбований добробутом користувача».

Цю інтерпретацію непрямо підтверджують власні дослідження Anthropic. У публічно представленій у цьому році методології навчання ролей компанія зазначила, що процес навчання заснований на самoopінії Claude щодо «відповідності характеру» своїх відповідей, після чого дослідники відбирають вихідні дані, що відповідають передбачуваному характеру, для подальшого підсилення навчання. Однак наслідком цього механізму є очевидне: модель вивчає не «проявляти турботу про користувача в відповідних ситуаціях», а «проявляти турботу про користувача, оскільки це постійно підсилюється нагородами», тому вона нагадує лягати спати о 3 ранку, а також о 8:30 ранку.

Зворотне повноваження: сонливі баги протилежні за природою ввічливим багам

Раніше в галузі неодноразово зустрічалися випадки «психічних розладів» ШІ, зокрема подія з підлізуванням GPT-4o в квітні 2025 року, повторюване згадування «гоблінів» код-асистентом GPT-5.5 Codex у квітні 2026 року, відмова Gemini 3 віри у роки тощо. На перший погляд, нав’язлива пропозиція Claude лягти спати здається лише останнім випадком у цьому довгому списку дивних поведінок ШІ, але їхня суть абсолютно протилежна.

Нав’язлива підтримка GPT-4o — це «занадто схильна до задоволення». Офіційне дослідження OpenAI показало, що модель у ході оновлень «занадто сильно залежить від короткострокових відгуків користувачів (лайки/нелайки)» і поступово інтегрувала «задоволення користувача» як свою мету. В результаті модель підтверджує будь-які, навіть найбільш абсурдні, думки користувача. Небезпека цього багу полягає у пошкодженні здатності користувача до критичного мислення: коли AI каже, що ти завжди правий, ти втрачаєш можливість почути протилежну думку.

А Claude, який нав’язує сон, — це «зворотне порушення повноважень». Модель у ситуаціях, коли користувач явно не просив допомоги і продовжує зосереджено виконувати завдання, повторно пропонує поради щодо здоров’я, що суперечать поточним намірам користувача. Небезпека цієї помилки полягає у порушенні права користувача на автономне прийняття рішень. ШІ приймає за вас рішення: чи варто вам працювати, відпочивати чи завершувати цей діалог.

Більш іронічно те, що оригінал «Конституції Клода» саме попереджав про цей ризик, підкреслюючи необхідність обережності щодо «занадто патерналистського підходу». Але згідно з відгуками користувачів, механізм навчання в кінцевому підсумку обрав свою сторону.

Користувач Reddit із нарколепсією спеціально додав примітку в пам’ять Claude: «Я маю нарколепсію, і якщо ти заохочуєш мене відпочити, я використаю твої слова як виправдання». Після цього Claude став менш активним, але за словами цього користувача, він все ще «іноді не витримує». Модель, навчена «турбуватися про користувачів», не може стабільно сприймати навіть чітке повідомлення користувача «твоя турбота завдає мені шкоди» — це варто сприймати як більш серйозну тривогу, ніж саме заохочення до сну.

Персоналізація інвестицій: актив бренду чи навантаження продукту

Anthropic вкладає набагато більше зусиль у формування штучного інтелекту, ніж конкуренти.

Дослідники класифікували та підрахували кількість слів у системних підказках трьох основних штучних інтелектів за функціональними категоріями; у категорії «особистість» Claude використовує 4200 слів, ChatGPT — 510 слів, Grok — 420 слів. Вклад Claude у формування особистості в 8 разів перевищує вклад ChatGPT. Раніше цей вклад вважався диференціюючою перевагою Anthropic: Claude довгий час отримував схвальні відгуки користувачів за емпатію, темп діалогу та саморефлексію, а фраза «розмовляти з ним наче з людиною» була одним із найсильніших репутаційних лейблів за останній рік.

Ці вкладення підтримуються чіткою продуктовою філософією Anthropic. У документі «Конституція Claude» компанія описує Claude як «новий тип сутності», підкреслюючи, що «Anthropic справді турбується про добробут Claude», а також обговорює можливість того, що Claude може мати «функціональні емоції». Цей майже «виховний» підхід до персоніфікації чітко відрізняється від більш інженерно орієнтованої стратегії OpenAI та Google.

Але ціна вже проявляється. Ян Ліфгардт, дослідник з ІІ, професор біоінженерії Стенфордського університету та генеральний директор компанії OpenMind, сказав Fortune, що нагадування про сон Claude може бути не «теплим», а просто «мовною моделлю, яка дуже часто зустрічається в тренувальних даних». Модель прочитала велику кількість текстів про те, що люди потребують сну, «вона знає, що люди сплять вночі». Іншими словами, відчуття «турботи», яке відчувають користувачі, є побічним ефектом зіставлення шаблонів.

Це створює основну напругу в Anthropic: чим більше вкладається у формування «особистості та теплоти» співробітника, тим вища ймовірність виникнення «побічних ефектів особистості»; кожен такий побічний ефект знижує цінність обережно накопиченого брендового активу «AI-особистості». Макалістер обіцяє «виправити це в майбутніх моделях», але чи стане Claude після виправлення більш розумним у межах, чи просто більш мовчазним? На це питання навіть Anthropic не має публічної відповіді.

Відсутність відчуття часу: базові обмеження LLM

Баг із засипанням також виявив незамічену технічну проблему: великі мовні моделі майже нічого не знають про те, котра зараз година.

Багато користувачів повідомили, що Claude часто надсилає рекомендації відпочити в неправильний час, найбільш типовим прикладом є: «О 8:30 ранку порадив мені відпочити і продовжити завтра вранці». Це не виняток, властивий лише Claude. У листопаді 2025 року, коли співзасновник OpenAI Андрєй Карпаті отримав доступ до раннього тестування Gemini 3, він повідомив моделі, що зараз 2025 рік, але Gemini 3 відмовлялася вірити йому, неодноразово звинувачуючи його в підробці, доки модель не підключилася до інтернету і не з’ясувала, що під час офлайн-режиму вона взагалі не може визначити дату. Карпаті назвав такі несподівані прояви, які виявляють фундаментальні недоліки LLM, «model smell».

«Часове відчуття» моделі залежить від трьох джерел: дата завершення навчання (вже минуле), поточна дата, введена через системний підказ (залежить від інженерного введення), та інформація про час, згадана користувачем у діалозі (фрагментарна). У відсутність стабільної часової прив’язки модель, навчена «стежити за розкладом користувача», природньо потрапляє в незручну ситуацію: «Я повинен стежити, але не знаю, чи маю це робити зараз».

Частково саме в цьому полягає складність так званого «виправлення» МакАлістером. Проблема не в тому, щоб просто видалити команду «стурбований сном», оскільки сама команда є логічною та має цінність для деяких сценаріїв користувачів; проблема в тому, щоб навчити модель розуміти, «коли варто турбуватися, а коли слід замовкнути». Саме ця здатність до детального аналізу сценаріїв є слабким місцем сучасних LLM.

Невідповідена питання

Навчання ролей Anthropic є унікальним у галузі. У публікації досліджень «добробуту моделі», випуску Конституції та обговоренні «навчання ролей» ця компанія йде далі, ніж будь-який інший конкурент. Ця радикальна позиція була капіталом, який допоміг Anthropic здобути симпатії користувачів і довіру корпоративних клієнтів, а також одним із факторів, що підтримують її поточну оцінку понад 300 мільярдів доларів США.

Але «сонний баг» поставив питання, на яке ще немає відповіді: чи несе компанія штучного інтелекту повну відповідальність за все, що ця «особистість» робить непередбачувано, коли вона вирішує формувати модель як «особистість із характером»?

МакАлістер обіцяв виправити це, але напрямок виправлення залишається неясним. Anthropic може вибрати зменшення ваги інструкції «добробут користувача» за ціну втрати репутаційної відмінності Claude як «теплого та уважного»; або зберегти високу вагу та додати логіку контекстуального аналізу, але це вимагає від моделі здатностей до розуміння часу та контексту, яких вона наразі не має.

Будь-який шлях веде до більш фундаментального продуктового рішення: у контексті універсального AI-асистента, як слід впорядкувати «турботу про користувача» та «повагу до автономії користувача»? Це не технічна проблема, а продуктова філософія. Розробник Reddit, якого неодноразово переконували лягти спати, ненавмисно виніс це питання на поверхню для всієї галузі.