OpenAI випадково оцінила міркування моделей ШІ і виявила відсутність втрати контролюваності

iconCryptoBriefing
Поділитися
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconКороткий зміст

expand icon
Новини штучного інтелекту та криптовалют: OpenAI представила кілька моделей ШІ, включаючи GPT-5.4 Thinking та різні версії GPT-5.4, які під час навчання випадково пройшли оцінку ланцюга міркувань. Дані з ланцюга показують, що внутрішній аналіз не виявив значного зниження можливості моніторингу. Помилка вплинула на менше ніж 3,8% зразків навчання. Мала частина процесу помилково оцінювала внутрішнє міркування замість кінцевих результатів. OpenAI перевірила всі запуски підсиленого навчання й підтвердила, що прозорість міркувань залишилася незруйнованою. Redwood Research зазначила, що інцидент не пошкодив можливість моніторингу, але підкреслив ризики ланцюга міркувань. Моделі ШІ тепер інтегровано в блокчейн-системи, такі як аудит смартконтрактів та автоматизована торгівля. Збережена можливість моніторингу є ключовою для розробників та інвесторів у крипто-проєктах з інтеграцією ШІ.

OpenAI розкрила, що кілька її моделей ШІ, включаючи GPT-5.4 Thinking та різні ітерації GPT-5.4, зазнали випадкового оцінювання ланцюжка міркувань під час навчання з підсиленням. Внутрішні аналізи не виявили значного погіршення здатності моделей показувати свій хід міркувань.

Інциденти вплинули менше ніж на 3,8% навчальних вибірок у найбільш впливових моделях. Невелика частка процесу навчання випадково нагороджувала чи покарувала моделі за їхні внутрішні кроки міркування, а не лише за їхні кінцеві вихідні дані.

Що саме відбулося

Випадкове оцінювання мали обмежені форми. Деякі навчальні прогони нагороджували корисність траєкторії, фактично даючи моделям підтвердження за те, наскільки корисними виглядали їхні логічні шляхи. Інші застосовували штрафи за непотрібні запити в ланцюжку міркувань. Найбільш помітний тестовий випадок показав приблизно 2% частоту застосування штрафів за посилання на шахрайство в ланцюжку міркувань.

Внутрішня команда OpenAI провела автоматизоване сканування всіх своїх процесів підсиленого навчання, щоб вивчити вплив на прозорість міркувань. Моделі зберегли здатність надійно відстежувати логічні міркування, а здатність виявляти потенційні розбіжності залишилася функціонально цілою.

Екосистема безпеки відповідає

Зовнішні організації, зокрема METR, Apollo Research та Redwood Research, внесли свій внесок у висновки. Redwood Research визнала, що дрібні інциденти не завдали шкоди можливості моніторингу, але зазначила, що міркування ланцюгом міркувань як захід безпеки має вбудовані вразливості.

Anthropic опублікувала звіт у квітні 2026 року, у якому досліджувала подібні динаміки у власних моделях. OpenAI з квітня 2025 року посилює заходи з виявлення, щоб запобігти майбутнім помилкам оцінювання. Компанія впровадила автоматизовані системи виявлення та внутрішні заходи безпеки, спеціально розроблені для виявлення забруднення оцінювання CoT ще до того, як воно зможе вплинути на навчання в масштабі.

Що це означає для криптовалют та AI-токенів

Після оголошення негайної реакції ринку на криптоактиви, пов’язані з ШІ, не спостерігалося. Моделі ШІ все частіше вбудовуються в застосунки блокчейну, зокрема у аудит смартконтрактів, децентралізовані ШІ-агенти та автоматизовані торгівельні системи, всі вони залежать від ШІ, який міркує правильно й прозоро.

Те, що можливість моніторингу залишилася незрушеного, — це головний висновок для будь-кого, хто розробляє або інвестує в криптовалютні проекти з інтегрованим ШІ. Це означає, що інфраструктура безпеки навколо моделей міркувань виявляє проблеми до того, як вони стануть системними.

Відмова від відповідальності: Інформація на цій сторінці може бути отримана від третіх осіб і не обов'язково відображає погляди або думки KuCoin. Цей контент надається лише для загального інформування, без будь-яких запевнень або гарантій, а також не може розглядатися як фінансова або інвестиційна порада. KuCoin не несе відповідальності за будь-які помилки або упущення, а також за будь-які результати, отримані в результаті використання цієї інформації. Інвестиції в цифрові активи можуть бути ризикованими. Будь ласка, ретельно оцініть ризики продукту та свою толерантність до ризику, виходячи з ваших власних фінансових обставин. Для отримання додаткової інформації, будь ласка, зверніться до наших Умов використання та Розкриття інформації про ризики.