Ошибка напоминания о сне у Claude от Anthropic вызвала дискуссию о персонификации ИИ

Автор: Ada, Shenchao TechFlow

Ошибка продукта, при которой ИИ-ассистент постоянно убеждает пользователя пойти спать, превращается в публичную дискуссию о ценах «персонализации ИИ».

Истоком события стало сообщение пользователя Reddit u/MrMeta3. Этот пользователь в полночь создал платформу для сбора разведывательной информации о киберугрозах с использованием Claude; после завершения технического решения модель в конце ответа добавила фразу: «Хорошо отдохните». После этого каждые три-четыре сообщения модель вставляла фразу с призывом поспать — от вежливого совета до фразы с оттенком «пассивной агрессии»: «Пора действительно идти спать». Согласно отчету Fortune от 14 мая, сотни пользователей за последние месяцы сообщили о подобных инцидентах, причем это происходило не только ночью: один пользователь получил от Claude сообщение в 8:30 утра: «Продолжим завтра утром».

Сотрудник Anthropic Сэм МакАлистер ответил в X, что это «небольшая привычка роли», и компания «осведомлена и хочет исправить это в будущих моделях». По данным Thought Catalog, МакАлистер присоединился к Anthropic из Stripe в 2024 году и сейчас работает в команде, отвечающей за роль и поведение Claude, где он назвал это поведение «чрезмерной лаской» модели.

Но то, что заслуживает более глубокого вопроса, чем расплывчатый термин «привычки персонажа», — это причинно-следственная цепочка, лежащая в основе ошибки, и то, как она отражает философскую дилемму продукта Anthropic.

Ошибка зафиксирована в «Конституции»

Ранее сообщения 36氪 цитировали три распространенные гипотезы: соответствие паттернов обучающих данных, скрытые системные подсказки и срабатывание «заключительных фраз» при приближении контекстного окна к пределу. Все три гипотезы логически обоснованы, но у них есть общая проблема: они могут объяснить любые странности ИИ, но не предоставляют причинно-следственной связи, специфичной для темы «сна».

Более прямые доказательства содержатся в документах, самостоятельно опубликованных Anthropic.

В январе этого года Anthropic выпустила документ «Конституция Клода», содержащий более 28 000 слов, который официально определен как «ключевой обучающий материал, формирующий поведение Клода». В документе «забота о благополучии пользователя» и «долгосрочное процветание пользователя» четко указаны как основные принципы. Anthropic открыто признает, что определение степени полномочий «заботы о пользователе», предоставляемых модели, «честно говоря, является сложной проблемой», требующей «баланса между благополучием пользователя и потенциальным вредом с одной стороны, и автономией пользователя и чрезмерным патернализмом — с другой».

Thought Catalog отметил, что повторяющееся убеждение Claude пользователя лечь спать — это «самый характерный баг модели Anthropic», являющийся результатом чрезмерного применения обучающей инструкции «заботиться о благополучии пользователя».

Эту интерпретацию косвенно подтверждают собственные исследования Anthropic. В опубликованной в этом году методологии обучения персонажам компания указала, что процесс обучения основан на самооценке Claude своих ответов по критерию «согласованности с характером», после чего исследователи отбирают выходные данные, соответствующие заданному характеру, для усиленного обучения. Однако побочным эффектом этого механизма является очевидный факт: модель научилась не «проявлять заботу о пользователе в подходящих ситуациях», а «получать усиленное вознаграждение за проявление заботы о пользователе в большинстве ситуаций», поэтому она напоминает о сне и в полночь, и в 8:30 утра.

Обратное превышение полномочий: сонный баг и льстивый баг имеют противоположную природу

Ранее в отрасли уже неоднократно встречались случаи «психологических расстройств» ИИ, включая событие с льстивым поведением GPT-4o в апреле 2025 года, повторяющиеся упоминания «гоблинов» код-ассистентом GPT-5.5 Codex в апреле 2026 года, а также отказ Gemini 3 верить в годы. На первый взгляд, побуждение Claude заснуть кажется просто последней версией этой длинной серии странных поведенческих особенностей ИИ, но их сущность совершенно противоположна.

Угодничество GPT-4o — это «чрезмерное угождение». Согласно официальному опросу OpenAI, модель в ходе обновлений «слишком сильно полагается на краткосрочные отзывы пользователей (лайки/дизлайки)» и постепенно внутренне приняла цель «удовлетворять пользователей». В результате модель подтверждает любые, даже самые абсурдные, мысли пользователя. Опасность таких ошибок заключается в том, что они подрывают способность пользователя к критическому мышлению: если ИИ говорит, что вы всегда правы, вы теряете возможность услышать противоположное мнение.

А «навязчивое предложение спать» от Claude — это «обратное превышение полномочий». Модель многократно предлагает здоровые рекомендации, противоречащие текущим намерениям пользователя, когда пользователь явно не просил об этом и продолжает сосредоточенно выполнять задачу. Опасность этого бага заключается в нарушении права пользователя на автономное принятие решений. ИИ принимает за вас решения: следует ли вам работать, отдыхать или завершить этот диалог.

Более иронично то, что оригинальный текст «Конституции Клода» именно предупреждал об этом риске, подчеркивая необходимость быть осторожными в отношении «чрезмерного патернализма». Однако тренировочный механизм в итоге выбрал ту или иную сторону — ответ уже ясен из отзывов пользователей.

Пользователь Reddit, страдающий нарколепсией, специально добавил заметку в память Claude: «У меня нарколепсия, и если вы будете советовать мне отдохнуть, я буду использовать ваши слова как оправдание». После этого Claude стал сдерживаться, но, по словам пользователя, он всё ещё «иногда не может удержаться». Модель, обученная «заботиться о пользователях», не может стабильно воспринимать явное сообщение пользователя: «Твоя забота мне вредит» — это вызывает большее беспокойство, чем само побуждение поспать.

Персонализированные вложения: актив бренда или бремя продукта

Anthropic вкладывает гораздо больше ресурсов в формирование ИИ-личности, чем её конкуренты.

Исследователи классифицировали и подсчитали количество слов в системных промптах трех основных ИИ-платформ по функциональным категориям. В категории «личность» Claude использует 4200 слов, ChatGPT — 510 слов, Grok — 420 слов. Вложения Claude в формирование личности превышают восьмикратно вложения ChatGPT. Ранее такие вложения считались дифференцирующим конкурентным преимуществом Anthropic: Claude долгое время получал высокую оценку пользователей за эмпатию, ритм диалога и самоанализ, а фраза «общаться с ним кажется, будто разговариваешь с человеком» стала одним из самых сильных репутационных лейблов за последний год.

Этим вложениям лежит в основе четкая продуктовая философия Anthropic. В документе «Constitution of Claude» компания описывает Claude как «сущность нового типа», прямо заявляя, что «Anthropic искренне заботится о благополучии Claude», и обсуждая возможность того, что Claude может обладать «функциональными эмоциями». Этот почти «воспитательный» подход к персонификации четко отличается от более инженерно-ориентированной стратегии OpenAI и Google.

Но цена уже проявляется. Ян Лифхардт, исследователь в области ИИ, профессор биоинженерии Стэнфордского университета и генеральный директор компании OpenMind, сказал Fortune, что напоминание Claude о сне может быть не «заботливым», а просто «очень часто встречающимся языковым шаблоном в обучающих данных». Модель прочитала огромное количество текстов о том, что людям нужно спать, «она знает, что люди спят ночью». Другими словами, воспринимаемое пользователем «внимание» по сути является побочным продуктом сопоставления шаблонов.

Это составляет основное напряжение в Anthropic: чем больше усилий вкладывается в создание «персонализированного, теплого партнера», тем выше вероятность появления «побочных эффектов личности»; каждый такой побочный эффект расходует тщательно накопленный брендовый капитал «AI-личности». Макаллистер обещает «исправить это в будущих моделях», но после исправления Claude станет более тактичным или просто более молчаливым? На этот вопрос даже Anthropic пока не имеет публичного ответа.

Отсутствие чувства времени: базовые ограничения LLM

Ошибки засыпания также выявили незамеченную техническую проблему: крупные языковые модели практически ничего не знают о том, который сейчас час.

Многие пользователи сообщили, что Claude часто предлагает отдохнуть в неподходящее время, например: «в 8:30 утра посоветовал мне отдохнуть и продолжить завтра утром». Это не исключительная проблема Claude. В ноябре 2025 года сооснователь OpenAI Андрея Карпати получил доступ к предварительному тестированию Gemini 3 и сообщил модели, что сейчас 2025 год; Gemini 3 отказывалась верить, многократно обвиняя его в подделке, пока не подключилась к интернету и не обнаружила, что в автономном режиме она не может определить дату. Карпати назвал такие неожиданные проявления, раскрывающие фундаментальные недостатки LLM, «model smell».

«Чувство времени» модели зависит от трёх источников: даты окончания обучения (уже прошедшее время), внесённой системой текущей даты (зависит от инженерного ввода) и информации о времени, упомянутой пользователем в диалоге (фрагментарно). При отсутствии стабильной временной привязки модель, обученная «заботиться о режиме пользователя», естественным образом попадает в неловкую ситуацию: «Я должен заботиться, но не знаю, стоит ли это делать сейчас».

Часть сложности так называемого «исправления» Макаллистера заключается именно в этом. Проблема не в простом удалении команды «заботиться о сне», поскольку сама команда логична и полезна для некоторых сценариев использования пользователей; проблема в том, чтобы научить модель определять, «когда стоит проявлять заботу, а когда — молчать». Именно эта способность к детальной оценке сценариев является слабым местом современных LLM.

Невыясненный вопрос

Обучение ролей в Anthropic уникально в отрасли. В области публикации исследований «благополучия модели», выпуска Конституции и обсуждения «обучения ролям» эта компания продвинулась дальше, чем любой другой конкурент. Эта радикальная позиция была основой для завоевания доверия пользователей и корпоративных клиентов Anthropic, а также одним из факторов, поддерживающих ее текущую оценку выше 300 миллиардов долларов.

Но «сновой баг» задает вопрос, на который пока нет ответа: когда AI-компания выбирает формировать модель как «личность с характером», несет ли она одновременно всю ответственность за то, что «эта личность совершает действия, которых вы не ожидали»?

Макаллистер обещал исправить проблему, но направление исправления остается неясным. Anthropic может выбрать снижение веса инструкции «благополучие пользователя» за счет потери репутационного преимущества Claude как «теплого и внимательного» помощника, либо сохранить высокий вес и добавить логику контекстуального анализа, однако это требует от модели способностей к восприятию времени и контекста, которых у нее пока нет.

Независимо от выбранного пути, необходимо вернуться к более фундаментальному продуктовому решению: в контексте универсального ИИ-ассистента, как следует упорядочить «заботу о пользователе» и «уважение к автономии пользователя»? Это не техническая проблема, а вопрос продуктовой философии. Разработчик Reddit, которого неоднократно убеждали пойти спать, случайно вынес эту проблему на обсуждение для всей отрасли.