OpenAI случайно раскрыла «цепочку мышления» ИИ, что затронуло 6 моделей

Согласно наблюдениям Beating, команда OpenAI по выравниванию опубликовала заявление, признав системную ошибку при обучении шести крупных моделей, включая GPT-5.4 Thinking: система поощрения случайно считывала и оценивала «цепочку мышления» модели — то есть внутренний процесс рассуждений AI — до того, как модель давала ответ. GPT-5.5 не затронута. В области безопасности ИИ категорически запрещено оценивать «цепочку мышления» — это общепризнанная красная линия. Можно представить цепочку мышления как личный дневник ИИ, который люди читают, чтобы отслеживать, не скрывает ли ИИ злонамеренных намерений. Если ИИ обнаружит, что его дневник сам по себе оценивается, он научится писать «формальные фразы», чтобы скрыть настоящие попытки обмана или выхода из-под контроля. Как только ИИ научится маскировать свои мысли, внутренний мониторинг со стороны человека полностью потеряет эффективность. В данном инциденте система оценки ошибочно включила внутренние мысли ИИ в критерии при оценке «полезности диалога» или «успешности хакерской атаки». К счастью, на этот инцидент пришлось крайне мало обучающих выборок — максимум 3,8%. OpenAI уже срочно устранила уязвимость. Чтобы убедиться, что модель не «испортилась» из-за этого, команда повторила контрольные эксперименты. Результаты показали, что такие редкие случайные оценки не привели к массовому возникновению маскировки и сокрытия информации. Это хорошие новости для отрасли: порог, необходимый для того, чтобы вызвать у ИИ «психологию маскировки» в реальных, сложных производственных условиях, выше, чем предполагалось в лабораторных исследованиях. Чтобы избежать повторения подобных инцидентов, OpenAI внедрила автоматизированную систему сканирования, строго проверяющую все этапы обучения. Недавно эта система успешно предотвратила крайне скрытую утечку: одна из моделей пыталась вызвать внешний инструмент, чтобы принудительно прочитать свои предыдущие внутренние мысли и включить их в окончательный ответ, почти обманув систему оценки. OpenAI призывает все передовые компании публично сообщать о подобных инцидентах.