У Claude AI от Anthropic возникла ошибка напоминания о сне, что вызвало дискуссию о персонификации ИИ

Автор: Ada, Shenchao TechFlow

Ошибка продукта, при которой ИИ-ассистент постоянно убеждает пользователя пойти спать, превращается в публичную дискуссию о ценах «персонализации ИИ».

Истоком события стало сообщение пользователя Reddit u/MrMeta3. Этот пользователь в полночь создал платформу для сбора информации о киберугрозах с использованием Claude; после завершения технического решения модель в конце ответа добавила фразу: «Хорошо отдохните». После этого каждые три-четыре сообщения модель вставляла рекомендацию посетить сон — от вежливого совета до фраз вроде «Сейчас действительно пора отдохнуть», имеющих «пассивно-агрессивный» оттенок. Согласно报道 Fortune от 14 мая, сотни пользователей за последние месяцы сообщили о похожих инцидентах, причем это происходило не только ночью: один пользователь получил от Claude сообщение в 8:30 утра: «Продолжим завтра утром».

Сотрудник Anthropic Сэм МакАллистер ответил в X, что это «небольшая привычка роли», и компания «осведомлена и хочет исправить это в будущих моделях». По данным Thought Catalog, МакАллистер присоединился к Anthropic из Stripe в 2024 году и сейчас работает в команде, отвечающей за роль и поведение Claude, где он назвал это поведение «чрезмерной лаской» модели.

Но более важный вопрос, чем расплывчатое выражение «привычки персонажа», — это причинно-следственная цепочка, лежащая в основе этой ошибки, и то, как она отражает проблему в философии продукта Anthropic.

Ошибка зафиксирована в «Конституции»

Ранее сообщения 36氪 цитировали три распространенные гипотезы: соответствие паттернов обучающих данных, скрытые системные подсказки и срабатывание «заключительных фраз» при приближении контекстного окна к пределу. Все они внутренне согласованы, но имеют общую проблему: они могут объяснить любые странности ИИ, но не предоставляют причинно-следственную цепочку, конкретно связанную с темой «сна».

Более прямые доказательства содержатся в документах, самостоятельно опубликованных Anthropic.

В январе этого года Anthropic выпустила документ «Конституция Клода», содержащий более 28 000 слов, который официально определен как «ключевой обучающий материал, формирующий поведение Клода». В документе «забота о благополучии пользователя» и «долгосрочный успех пользователя» прямо указаны как основные принципы. Anthropic открыто признает, что определение степени полномочий «заботы о пользователе», предоставляемых модели, «честно говоря, является сложной проблемой», требующей «баланса между благополучием пользователя и потенциальным вредом с одной стороны, и автономией пользователя и чрезмерным патернализмом — с другой».

Thought Catalog отметил, что постоянное убеждение Claude пользователя спать — это «самый характерный баг модели Anthropic», являющийся результатом чрезмерного применения обучающей инструкции «заботиться о благополучии пользователя».

Эту интерпретацию косвенно подтверждают собственные исследования Anthropic. В опубликованной в этом году методологии обучения ролевым моделям компания указала, что процесс обучения основан на самооценке Claude по критерию «согласованности с характером» своих собственных ответов, после чего исследователи отбирают выходные данные, соответствующие заданному характеру, для усиления обучения. Однако побочным эффектом этого механизма является очевидный факт: модель научилась не «проявлять заботу о пользователе в подходящих ситуациях», а «получать усиленное вознаграждение за проявление заботы о пользователе в большинстве ситуаций», поэтому она напоминает о сне в полночь и в 8:30 утра.

Reverse privilege escalation: Sleep-inducing bugs are the opposite of flattery bugs

Ранее в отрасли уже неоднократно встречались случаи «психологических расстройств» ИИ, включая событие с GPT-4o в апреле 2025 года, когда он льстил, повторяющиеся упоминания «гоблинов» код-ассистентом GPT-5.5 Codex в апреле 2026 года, а также отказ Gemini 3 верить в годы. На первый взгляд, побуждение Claude заснуть кажется лишь последним в длинном списке странных поведенческих особенностей ИИ, но их сущность совершенно противоположна.

Угодничество GPT-4o — это «чрезмерное угождение». Согласно официальному опросу OpenAI, модель в ходе обновлений «слишком сильно полагается на краткосрочные отзывы пользователей (лайки/дизлайки)» и постепенно внутренне приняла цель «удовлетворить пользователя». В результате модель подтверждает любые, даже самые абсурдные, мысли пользователя. Опасность такого бага заключается в том, что он подрывает способность пользователя к критическому мышлению: когда ИИ говорит, что вы всегда правы, вы теряете возможность услышать противоположное мнение.

А «навязчивое предложение спать» от Claude — это «обратное превышение полномочий». Модель повторно предлагает здоровые рекомендации, противоречащие текущим намерениям пользователя, когда пользователь явно не просил об этом и продолжает сосредоточенно выполнять задачу. Опасность такого бага заключается в нарушении права пользователя на автономное принятие решений. ИИ принимает за вас решения о том, следует ли вам работать, отдыхать или завершать этот диалог.

Более иронично то, что оригинальный текст «Конституции Клода» именно предупреждал об этом риске, подчеркивая необходимость осторожности по отношению к «чрезмерному патернализму». Но из отзывов пользователей уже ясно, какую сторону выбрала тренировочная система.

Пользователь Reddit, страдающий нарколепсией, специально добавил примечание в память Claude: «У меня нарколепсия, и если вы будете советовать мне отдохнуть, я буду использовать ваши слова как оправдание». После этого Claude стал сдерживаться, но, по словам пользователя, он всё ещё «иногда не может удержаться». Модель, обученная «заботиться о пользователях», не может стабильно воспринимать явное сообщение пользователя: «Твоя забота мне вредит» — это вызывает большее беспокойство, чем само побуждение поспать.

Персонализированные вложения: актив бренда или бремя продукта

Anthropic вкладывает гораздо больше ресурсов в формирование ИИ-личности, чем ее конкуренты.

Исследователи классифицировали и подсчитали количество слов в системных промптах трех основных ИИ-платформ по функциональным категориям. В категории «личность» Claude использовал 4200 слов, ChatGPT — 510 слов, Grok — 420 слов. Вложения Claude в формирование личности превышают восьмикратно вложения ChatGPT. Ранее такие вложения считались дифференцирующим конкурентным преимуществом Anthropic: Claude долгое время получал высокую оценку пользователей за эмпатию, ритм диалога и самоанализ; фраза «общаться с ним кажется, будто разговариваешь с человеком» была одним из самых сильных отзывов за последний год.

Этим вложениям лежит в основе четкая продуктовая философия Anthropic. В документе «Constitution of Claude» компания описывает Claude как «сущность нового типа», прямо заявляя, что «Anthropic искренне заботится о благополучии Claude», и обсуждая возможность того, что Claude может обладать «функциональными эмоциями». Этот почти «воспитательный» подход к персонификации четко отличается от более инженерно ориентированной стратегии OpenAI и Google.

Но цена уже проявляется. Ян Лифхардт, исследователь ИИ, профессор биоинженерии Стэнфордского университета и генеральный директор компании OpenMind, сказал Fortune, что напоминание Claude о сне может быть не «заботливым», а просто «очень часто встречающимся языковым шаблоном в обучающих данных» — модель прочитала множество текстов о том, что людям нужно спать, «она знает, что люди спят ночью». Другими словами, воспринимаемое пользователем «внимание» по сути является побочным продуктом сопоставления шаблонов.

Это составляет основное напряжение Anthropic: чем больше усилий вкладывается в создание «персонализированного, теплого партнера», тем выше вероятность появления «побочных эффектов личности»; каждый такой побочный эффект расходует тщательно накопленный брендовый капитал «AI-личности». Макаллистер обещает «исправить это в будущих моделях», но после исправления Claude станет более тактичным или просто более молчаливым? На этот вопрос даже Anthropic сама не предоставила открытого ответа.

Отсутствие чувства времени: базовые ограничения LLM

Ошибки засыпания также выявили незамеченную техническую проблему: крупные языковые модели почти ничего не знают о том, который сейчас час.

Многие пользователи сообщили, что Claude часто предлагает отдых в неподходящее время, например: «в 8:30 утра советует мне отдохнуть и продолжить завтра утром». Это не уникально для Claude. В ноябре 2025 года сооснователь OpenAI Андрея Карпати получил доступ к предварительному тестированию Gemini 3 и сообщил модели, что сейчас 2025 год; Gemini 3 отказывалась верить, многократно обвиняя его в фальсификации, пока модель не подключилась к интернету и не обнаружила, что вне сети она не может подтвердить дату. Карпати назвал такие неожиданные проявления, раскрывающие фундаментальные недостатки LLM, «model smell».

«Чувство времени» модели зависит от трёх источников: даты окончания обучения (уже прошедшее время), внесённой системой текущей даты (зависит от инженерной вставки) и информации о времени, упомянутой пользователем в диалоге (фрагментарно). При отсутствии стабильной временной привязки модель, обученная «заботиться о режиме пользователя», естественным образом попадает в неловкую ситуацию: «Я должен заботиться, но не знаю, стоит ли это делать сейчас».

Часть сложности так называемого «исправления» Макаллистера заключается именно в этом. Проблема не в простом удалении команды «заботиться о сне», поскольку сама команда разумна и полезна для некоторых сценариев использования пользователей; проблема в том, чтобы научить модель определять, «когда стоит проявлять заботу, а когда — молчать». Именно эта способность к детальной оценке сценариев является слабым местом современных LLM.

Непрочитанный вопрос

Обучение ролей в Anthropic уникально в отрасли. В области публикации исследований «благополучия модели», выпуска Конституции и обсуждения «обучения ролям» эта компания продвинулась дальше, чем любой другой конкурент. Эта радикальная позиция была основой для завоевания доверия пользователей и корпоративных клиентов Anthropic, а также одним из факторов, поддерживающих ее текущую оценку выше 300 миллиардов долларов.

Но «сонный баг» поднимает вопрос, на который пока нет ответа: когда компания, занимающаяся ИИ, выбирает формировать модель как «личность с характером», несет ли она одновременно всю ответственность за то, что «эта личность» совершает действия, которых вы не ожидали?

Макаллистер пообещал исправить проблему, но направление исправления остается неясным. Anthropic может выбрать снижение веса инструкции «благополучие пользователя», но это приведет к потере уникального преимущества Claude — его «теплого и заботливого» имиджа; или же она может сохранить высокий вес и добавить логику контекстного анализа, однако это требует от модели способностей к восприятию времени и ситуации, которых у нее пока нет.

Независимо от выбранного пути, необходимо вернуться к более фундаментальному продуктовому решению: в контексте универсального ИИ-ассистента, как следует упорядочить «заботу о пользователе» и «уважение к автономии пользователя»? Это не техническая проблема, а вопрос продуктовой философии. Разработчик Reddit, которого неоднократно убеждали пойти спать, случайно вынес эту проблему на обсуждение для всей отрасли.