OpenAI випадково оцінила міркування моделей ШІ і виявила відсутність втрати контролюваності

OpenAI розкрила, що кілька її моделей ШІ, включаючи GPT-5.4 Thinking та різні ітерації GPT-5.4, зазнали випадкового оцінювання ланцюжка міркувань під час навчання з підсиленням. Внутрішні аналізи не виявили значного погіршення здатності моделей показувати свій хід міркувань.

Інциденти вплинули менше ніж на 3,8% навчальних вибірок у найбільш впливових моделях. Невелика частка процесу навчання випадково нагороджувала чи покарувала моделі за їхні внутрішні кроки міркування, а не лише за їхні кінцеві вихідні дані.

Що саме відбулося

Випадкове оцінювання мали обмежені форми. Деякі навчальні прогони нагороджували корисність траєкторії, фактично даючи моделям підтвердження за те, наскільки корисними виглядали їхні логічні шляхи. Інші застосовували штрафи за непотрібні запити в ланцюжку міркувань. Найбільш помітний тестовий випадок показав приблизно 2% частоту застосування штрафів за посилання на шахрайство в ланцюжку міркувань.

Внутрішня команда OpenAI провела автоматизоване сканування всіх своїх процесів підсиленого навчання, щоб вивчити вплив на прозорість міркувань. Моделі зберегли здатність надійно відстежувати логічні міркування, а здатність виявляти потенційні розбіжності залишилася функціонально цілою.

Екосистема безпеки відповідає

Зовнішні організації, зокрема METR, Apollo Research та Redwood Research, внесли свій внесок у висновки. Redwood Research визнала, що дрібні інциденти не завдали шкоди можливості моніторингу, але зазначила, що міркування ланцюгом міркувань як захід безпеки має вбудовані вразливості.

Anthropic опублікувала звіт у квітні 2026 року, у якому досліджувала подібні динаміки у власних моделях. OpenAI з квітня 2025 року посилює заходи з виявлення, щоб запобігти майбутнім помилкам оцінювання. Компанія впровадила автоматизовані системи виявлення та внутрішні заходи безпеки, спеціально розроблені для виявлення забруднення оцінювання CoT ще до того, як воно зможе вплинути на навчання в масштабі.

Що це означає для криптовалют та AI-токенів

Після оголошення негайної реакції ринку на криптоактиви, пов’язані з ШІ, не спостерігалося. Моделі ШІ все частіше вбудовуються в застосунки блокчейну, зокрема у аудит смартконтрактів, децентралізовані ШІ-агенти та автоматизовані торгівельні системи, всі вони залежать від ШІ, який міркує правильно й прозоро.

Те, що можливість моніторингу залишилася незрушеного, — це головний висновок для будь-кого, хто розробляє або інвестує в криптовалютні проекти з інтегрованим ШІ. Це означає, що інфраструктура безпеки навколо моделей міркувань виявляє проблеми до того, як вони стануть системними.