OpenAI случайно оценила способность рассуждения моделей ИИ и обнаружила отсутствие потери наблюдаемости

OpenAI сообщила, что несколько её моделей ИИ, включая GPT-5.4 Thinking и различные версии GPT-5.4, столкнулись с случайной оценкой цепочки рассуждений во время обучения с подкреплением. Внутренний анализ показал, что способность моделей демонстрировать свои рассуждения не ухудшилась.

Инциденты затронули менее 3,8% обучающих выборок в наиболее затронутых моделях. Небольшая часть процесса обучения случайно поощряла или наказывала модели за их внутренние шаги рассуждения, а не только за их конечные результаты.

Что же на самом деле произошло

Случайная оценка принимала ограниченные формы. Некоторые обучающие запуски поощряли полезность траектории, по сути, давая моделям одобрение за то, насколько полезными выглядели их цепочки рассуждений. Другие наказывали за излишние запросы в цепочке рассуждений. Самый заметный тестовый случай показал примерно 2% частоту наказания за упоминания в цепочке рассуждений о мошенничестве.

Внутренняя команда OpenAI провела автоматизированные сканирования всех своих запусков обучения с подкреплением для оценки влияния на прозрачность рассуждений. Модели по-прежнему могли надежно отслеживать логические рассуждения, а способность выявлять потенциальные несоответствия осталась функционально сохранным.

Экосистема безопасности реагирует

Внешние организации, включая METR, Apollo Research и Redwood Research, внесли вклад в выводы. Redwood Research признала, что незначительные инциденты не повлияли на наблюдаемость, но отметила, что рассуждения по цепочке как мера безопасности имеют внутренние уязвимости.

Anthropic опубликовала отчет в апреле 2026 года, изучивший аналогичные динамики в своих собственных моделях. OpenAI усиливает меры по обнаружению с декабря 2025 года для предотвращения будущих ошибок оценки. Компания внедрила автоматизированные системы обнаружения и внутренние механизмы защиты, специально разработанные для выявления загрязнения оценки CoT до того, как оно сможет повлиять на масштабное обучение.

Что это означает для криптовалют и токенов ИИ

После объявления немедленной реакции на рынке со стороны крипто активов, связанных с ИИ, не наблюдалось. Модели ИИ все чаще интегрируются в блокчейн-приложения, включая аудит смарт-контрактов, децентрализованные ИИ-агенты и автоматизированные торговые системы, все из которых зависят от ИИ, способного логически и прозрачно рассуждать.

Ключевой вывод для всех, кто разрабатывает или инвестирует в криптовалютные проекты с интеграцией ИИ, заключается в том, что возможность мониторинга сохранилась. Это означает, что инфраструктура безопасности вокруг моделей рассуждений выявляет проблемы до того, как они станут системными.