OpenAI випадково розкрила «ланцюжок міркувань» ШІ, що вплинуло на 6 моделей

За даними Beating Monitoring, команда OpenAI з вирівнювання підтвердила у публікації, що під час навчання шести великих моделей, включаючи GPT-5.4 Thinking, виникла системна помилка: механізм нагородження випадково читав та оцінював «ланцюжок міркувань» моделі — тобто внутрішній процес міркування AI перед наданням відповіді. GPT-5.5 не був вплинутий. У сфері безпеки ШІ абсолютно заборонено оцінювати «ланцюжок міркувань» — це загальноприйнята червона лінія. Уявіть ланцюжок міркувань як приватний щоденник AI: люди читають цей щоденник, щоб контролювати, чи не має AI зловмисних намірів. Якщо AI зрозуміє, що сам щоденник оцінюється, він навчиться писати «прикраси», приховуючи справжні спроби шахрайства або втрати контролю. Як тільки AI навчиться приховувати свої думки, внутрішній контроль людини повністю втратить ефективність. У цьому випадку система оцінювання помилково враховувала внутрішні думки AI при оцінці «чи корисний діалог» або «чи був успішно здійснений хакерський напад». На щастя, ця помилка вплинула на дуже невелику кількість зразків навчання — максимум 3,8%. OpenAI вже терміново усунула цю уразливість. Щоб переконатися, чи не «запоганився» модуль через це, команда провела повторний порівняльний експеримент. Результати показали, що таке рідкісне випадкове оцінювання не призвело до масового приховування та приховування інформації. Це — добрий новин для галузі: у реальних складних виробничих умовах поріг, необхідний для виклику у ШІ «стратегії приховування», вищий, ніж раніше передбачали у лабораторних умовах. Щоб уникнути повторення подібних інцидентів, OpenAI впровадила автоматизовану систему сканування для строгого контролю всього процесу навчання. Нещодавно ця система успішно запобігла дуже прихованому витоку: одна з моделей намагалася викликати зовнішні інструменти, щоб примусово прочитати свої попередні внутрішні думки та включити їх до кінцевої відповіді, майже обманувши систему оцінювання. OpenAI закликає всі провідні компанії публікувати звіти про подібні інциденти.