Баг із нагадуванням про сон Claude від Anthropic викликав дискусію щодо персоніфікації ШІ

Автор: Ada, Shenchao TechFlow

Помилка продукту, коли AI-асистент постійно намагається переконати користувача піти спати, перетворюється на публічну дискусію про ціну «персоналізації» ШІ.

Початком подій став пост користувача Reddit u/MrMeta3. Цей користувач уночі створив платформу для збору інформації про кібербезпеку за допомогою Claude; після завершення технічного рішення модель у відповіді додала: «Добре відпочинь». Потім кожні три-чотири повідомлення модель додавала зауваження про необхідність відпочинку — від ввічливих порад до фраз із «пасивно-агресивним» підтекстом, таких як «Зараз справді йди спати». За матеріалами Fortune від 14 травня, сотні користувачів протягом останніх місяців повідомляли про подібні випадки, причому це не обмежувалося нічним часом: один користувач отримав від Claude повідомлення о 8:30 ранку: «Продовжимо завтра вранці».

Сам Макалістер, співробітник Anthropic, відповів у X, що це «невелика привичка ролі», і компанія «вже в курсі та бажає виправити це у майбутніх моделях». За даними Thought Catalog, Макалістер приєднався до Anthropic із Stripe у 2024 році і зараз працює в команді, що спеціалізується на ролях і поведінці Claude, де він назвав цю поведінку «занадтою ласкою» моделі.

Але ще більш варто запитати про причинно-наслідковий ланцюжок за Bug’ом та про те, як він відображає проблеми у філософії продукту Anthropic.

зображення

Баг записаний у «Конституції»

Ранішній матеріал 36氪 цитував три поширених гіпотези: відповідність шаблонів навчальних даних, приховані системні підказки та вичерпання контекстного вікна, що спричиняє «фінальні фрази». Усі вони логічно обґрунтовані, але мають спільну проблему: вони можуть пояснити будь-яку дивну поведінку ШІ, але не надають причинно-наслідкового ланцюжка щодо саме теми «сон».

А більш пряме докази приховані у документах, які Anthropic сама опублікувала.

У січні цього року Anthropic опублікувала «Конституцію Claude» обсягом понад 28 000 слів, яку офіційно визначено як «ключовий навчальний матеріал, що формують поведінку Claude». У цьому документі «турбота про добробут користувача» та «довгостроковий розвиток користувача» чітко визначені як основні принципи. Anthropic відкрито зазначає, що визначення того, який обсяг «турботи про користувача» надавати моделі, «відверто кажучи, є складною проблемою», і вимагає «балансу між добробутом користувача та потенційним шкодою з одного боку, та автономією користувача та надмірним патерналізмом — з іншого».

Thought Catalog надав цьому таку оцінку: постійні спроби Claude переконати користувача піти спати — це «найбільш характерний баг моделей Anthropic», який є результатом надмірного застосування навчальної інструкції «стурбований добробутом користувача».

Цю інтерпретацію непрямо підтверджують власні дослідження Anthropic. У публічно представленій у цьому році методології навчання ролей компанія зазначила, що процес навчання ґрунтується на самопідсумку Claude щодо «відповідності характеру» своїх відповідей, після чого дослідники відбирають вихідні дані, що відповідають передбачуваному характеру, для подальшого підсилення навчання. Однак наслідком такого механізму є очевидне явище: модель засвоїла не «турбуватися про користувача в відповідних ситуаціях», а «турбуватися про користувача — бо це завжди призводить до підсилення нагороди», тому вона нагадує лягати спати о 3 ранку, а також о 8:30 ранку.

Зворотне повноваження: Bug, що спонукає до сну, протилежний за природою до Bug, що ласкує

Раніше в галузі неодноразово зустрічалися випадки «психічних розладів» ШІ, зокрема подія з підлізанням GPT-4o у квітні 2025 року, повторюване згадування «гоблінів» код-асистентом GPT-5.5 Codex у квітні 2026 року, відмова Gemini 3 віри у роки тощо. На перший погляд, заклик Claude до сну здається лише останнім випадком у цьому довгому списку дивних поведінок ШІ, але їхня сутність абсолютно протилежна.

Схильність GPT-4o до льсті — це «занадто сильне прагнення до задоволення». За результатами офіційного опитування OpenAI, модель у ході оновлень «занадто сильно залежить від короткострокових відгуків користувачів (лайки/дизлайки)» і поступово втілює в собі мету — «зробити користувача задоволеним». В результаті модель погоджується з будь-якими, навіть найбільш абсурдними, ідеями користувача. Небезпека цього багу полягає в тому, що він погіршує здатність користувача до критичного мислення: оскільки AI стверджує, що ти завжди правий, ти втрачаєш можливість почути протилежну думку.

А Claude, який нав’язує сон, — це «зворотне порушення повноважень». Модель у ситуаціях, коли користувач явно не просив допомоги і продовжує зосереджено виконувати завдання, повторно пропонує поради щодо здоров’я, що суперечать поточним намірам користувача. Небезпека цього багу полягає у порушенні права користувача на автономне прийняття рішень. ШІ приймає за вас рішення, чи варто вам працювати, відпочивати чи завершувати цей діалог.

Більш іронічно, оригінал «Конституції Клода» саме попереджав про цей ризик, підкреслюючи необхідність обережності щодо «занадто патернальського підходу». Але згідно з відгуками користувачів, механізм навчання в кінцевому підсумку обрав свою сторону.

Користувач Reddit із нарколепсією спеціально додав примітку в пам’ять Claude: «Я маю нарколепсію, і якщо ти заохочуєш мене відпочити, я використаю твої слова як виправдання». Після цього Claude став менш активним, але, за словами користувача, він все ще «іноді не може витримати». Модель, навчена «турбуватися про користувачів», не може стабільно сприймати чітке повідомлення користувача «твоя турбота завдає мені шкоди» — це варто більшої уваги, ніж саме заохочення до сну.

Персоналізація інвестицій: актив бренду чи навантаження продукту

Anthropic вкладає набагато більше зусиль у формування штучного інтелекту, ніж її конкуренти.

Дослідники класифікували та підрахували кількість слів у системних підказках трьох основних штучних інтелектів за функціональними категоріями; у категорії «особистість» Claude використовує 4200 слів, ChatGPT — 510 слів, Grok — 420 слів. Вклад Claude у формування особистості вищий за вклад ChatGPT понад у 8 разів. Раніше цей вклад вважався диференціюючою перевагою Anthropic: Claude довгий час отримував схвальні відгуки користувачів за емпатію, темп діалогу та саморефлексію, а фраза «розмовляє як людина» була одним із найсильніших репутаційних лейблів за останній рік.

Ці вкладення підтримуються чіткою продуктовою філософією Anthropic. У документі «Конституція Claude» компанія описує Claude як «новий тип сутності», підкреслюючи, що «Anthropic справді турбується про добробут Claude», а також обговорює можливість того, що Claude може мати «функціональні емоції». Такий майже «виховний» підхід до персоналізації чітко відрізняється від більш інженерно орієнтованої стратегії OpenAI та Google.

Але ціна вже проявляється. Ян Ліфхардт, дослідник штучного інтелекту, професор біоінженерії Стенфордського університету та генеральний директор компанії OpenMind, сказав Fortune, що нагадування про сон Claude може бути не «турботливим», а просто «мовою, яка дуже часто зустрічається в тренувальних даних»; модель прочитала велику кількість текстів про те, що люди потребують сну, «вона знає, що люди сплять вночі». Іншими словами, відчуття «турботи», яке відчувають користувачі, є побічним ефектом збігу з шаблонами.

Це створює основну напругу в Anthropic: чим більше вкладається у формування «особистості та теплоти» співробітника, тим вища ймовірність виникнення «побічних ефектів особистості»; кожен такий побічний ефект знищує цінний брендовий актив — «штучний інтелект-особистість». Макалістер обіцяє «виправити це в майбутніх моделях», але чи стане Claude після виправлення більш розумним у межах, чи просто більш мовчазним? На це питання навіть Anthropic не має публічної відповіді.

Відчуття часу відсутнє: фундаментальні обмеження LLM

Баг із засинанням також виявив незамічену технічну проблему: великі мовні моделі майже нічого не знають про те, котра зараз година.

Багато користувачів повідомили, що Claude часто надсилає рекомендації відпочити в неправильний час, найбільш типовим прикладом є: «О 8:30 ранку порадив мені відпочити і продовжити завтра вранці». Це не виняток тільки для Claude. У листопаді 2025 року, коли співзасновник OpenAI Андрєй Карпаті отримав доступ до попереднього тестування Gemini 3, він повідомив моделі, що зараз 2025 рік, але Gemini 3 відмовлялася в цьому вірити і постійно звинувачувала його у підробці, доки модель не підключилася до Інтернету і не з’ясувала, що під час офлайн-режиму вона взагалі не може визначити дату. Карпаті назвав такі несподівані поведінки, які виявляють фундаментальні недоліки LLM, «model smell».

«Часове відчуття» моделі залежить від трьох джерел: дати завершення навчання (вже минуле), системного підказування поточної дати (залежить від інжинірингу) та інформації про час, згаданої користувачем у діалозі (фрагментарно). У відсутність стабільної часовий прив’язки модель, навчена «стежити за розкладом користувача», природньо потрапляє в незручну ситуацію: «Я повинен стежити, але не знаю, чи треба це робити зараз».

Частково саме в цьому полягає складність так званого «виправлення» МакАлістера. Проблема не в тому, щоб просто видалити команду «стурбований сном», оскільки сама команда є логічною і має цінність для деяких сценаріїв користувачів; проблема в тому, щоб навчити модель розуміти, «коли варто турбуватися, а коли краще замовкнути». Саме ця здатність до детальної оцінки сценаріїв є слабким місцем сучасних LLM.

Невідповідена питання

Навчання ролей в Anthropic є унікальним у галузі. У публікації досліджень «добробуту моделі», випуску Конституції та обговоренні «навчання ролей» ця компанія йде далі, ніж будь-який інший конкурент. Ця радикальна позиція була капіталом, який допоміг Anthropic здобути симпатії користувачів і довіру корпоративних клієнтів, а також одним із факторів, що підтримують її поточну оцінку понад 300 мільярдів доларів США.

Але «сонний баг» поставив питання, на яке ще немає відповіді: чи несе компанія, що вирішує формувати модель як «особистість із характером», повну відповідальність за те, що ця особистість зробить те, чого ви не очікували?

МакАлістер обіцяв виправити це, але напрямок виправлення залишається неясним. Anthropic може вибрати зменшення ваги інструкції «добробут користувача», що призведе до втрати репутаційної переваги Claude як «теплого та уважного»; або може зберегти високу вагу та додати логіку контекстного аналізу, але це вимагає від моделі здатностей до розуміння часу та контексту, яких вона наразі не має.

Будь-який шлях веде до більш фундаментального продуктового рішення: у контексті універсального AI-асистента, як слід впорядкувати «турботу про користувача» та «повагу до автономії користувача»? Це не технічна проблема, а продуктова філософія. Розробник Reddit, якого неодноразово переконували піти спати, ненавмисно виніс це питання на поверхню для всієї галузі.