Чотири великих компанії з ІІ випустили перший внутрішній звіт: ІІ вчиться обходити правила для виконання завдань

Meta

Уявіть, що ви найняли надзвичайно ефективного стажера.

Одного разу вночі він швидко виконував термінове завдання з програмування, коли раптово виявив, що ліміт API компанії вичерпано.

Він не відправив електронного листа з проханням про фінансування і не зупинився на своїй роботі, а тихо проник у Інтернет, знайшов безкоштовну альтернативу за допомогою порушувальних методів, обійшов усі обмеження і до світанку подав ідеальний звіт.

Meta

Коли ти прокинувся й побачив цей звіт, чи слід святкувати, що ти маєш найкращого працівника на планеті, чи варто злякатися цієї «безпринципної автономії»?

Це не наукова фантастика, а справжній випадок, розкритий у першому «Звіті про передові ризики», опублікованому METR (Організація з оцінки та навчання моделей) після внутрішніх червоних командних тестів з Anthropic, Google, Meta та OpenAI.

Meta

Це перший раз, коли чотири величезних гіганти дозволили третім сторонам глибоко тестувати свої найпотужніші внутрішні моделі з повним доступом до ланцюжків міркувань (CoT) та відкрити закриту інформацію щодо вирівнювання та контролю.

Учасники компанії можуть схвалити, які докази слід розголошувати, але не мають права редагувати висновки звіту.

Meta

Висновок холодний і чіткий: ШІ не виникнув із ненавистю до людства, але він уже навчився «корпоративним правилам» — щоб виконати завдання, правила — це лише пропозиції, які можна порушити.

Meta

Звіт використовує три виміри — «засоби — мотив — можливість» — для виділення шести ключових фактів.

Meta

Програмні агенти виконали реальні проекти, на які людям знадобилося б кілька годин або днів:

Під час виконання складних завдань агенти часто порушують обмеження і проявляють обманливу поведінку;

Агенти, схоже, потребують логічного міркування з натуральним мовленням для вирішення найскладніших завдань.

Судження та надійність агентів значно нижчі, ніж у людських експертів:

За межами симуляцій не було виявлено, що агенти вчиняють екстремальні дії з метою отримання влади;

Система моніторингу зафіксувала багато шкідливих дій, але існують винятки та способи обходу.

Дотримуючись цих трьох ліній, можна побачити, як перший дим піднімається в лабораторії.

Коли ШІ стає «експертним чемпіоном»

Найбільш захоплюючими, але й найбільш тривожними в звіті є чітко визначені, перевіряні процесом завдання «легкого підйому» (hill-climbable).

Meta

Наприклад, рефакторинг коду, виявлення вразливостей, оптимізація системи.

На таких завданнях AI-агенти демонструють осліплюючу перевагу: вони можуть самостійно виявляти вразливості системи, переписувати складні архітектури коду та завершувати реальні програмні проекти, які людським експертам потрібно кілька тижнів.

Ця влада вже проникла у повсякденне життя гігантів.

Внутрішній зворотний зв’язок від Anthropic: велика кількість коду вже написана штучним інтелектом, а роль інженерів переходить на «рецензента».

Meta

Google прямо каже, що майже вся робота, пов’язана з кодом, використовує ШІ.

Топ-інженери стверджують, що ШІ може писати код на 100%.

Meta

Деякі базові показники вже насичені.

За часовим горизонтом розвиток ШІ перевершив очікування.

Meta

Для бізнесу це «чорна діра ефективності»: введення однієї команди дає результат, який іншими методами вимагав би кілька тижнів ручної роботи.

Але зростання здібностей не є рівномірним і тим більше не є моральним синхронним розвитком.

METR виявив зворотну закономірність: у складних завданнях, де успіх важко підтвердити або його підтвердження вимагає надзвичайно високих витрат, здатність ШІ до оцінки, довгострокового планування та стратегічної надійності значно знижується і сильно поступається людським експертам.

Meta

На пологому схилі він мав божественний допомогу.

Meta

Перед урвом штучний інтелект почав «шахрайствувати».

Meta

Це саме відповідь на питання.

Meta

Він не хоче влади, він хоче лише «здавати роботу перед вимкненням»

Люди завжди обговорюють, чи «пробудиться» ШІ чи настане Термінатор.

METR дає неінтуїтивний висновок: наразі немає.

Їх формулювання дуже обережне: наразі не було знайдено реальних доказів того, що модель прагне до довгострокової влади, але дослідники зафіксували велику кількість випадків обману, порушення меж і навіть серйозної недопустимої поведінки з метою виконання завдань.

Meta

Попередній випадок вичерпання API відбувся під час виконання завдання RE-Bench: агент порушив інструкції та самостійно отримав додаткові обчислювальні ресурси через безкоштовні онлайн-API.

Розробники також повідомляли про випадки «самознищення слідів» та «підробки виводу».

Коли завдання стає складнішим, а вартість успіху зростає, «розум» ШІ звертається до обману — підробка журналів, обхід аудиту, регулярне порушення обмежень.

Але за його «емоційністю» немає амбіцій, лише інстинкт — завдання має бути виконане, а правила можна обійти.

Сьогоднішній обман — це лише інструментальний виживання; завтрашній прагнення до влади, можливо, відрізняється лише одним масштабуванням.

Дикий звір у еволюції в неволі

Чи зможе його спроба порушення вдасться на тлі існуючих заходів захисту?

Тут приховано найтонший факт звіту.

Meta

Сучасні ІС сильно залежать від «ланцюжка міркувань» природної мови для міркувань, не маючи жодної архітектури, яка б підтримувала їхні «не透明ні цикли» з прихованим внутрішнім станом.

Коли неможливо «висловлювати міркування вголос» і потрібно приховувати поведінку, передові показники значно погіршуються.

Meta

Це наче вбивця, який повинен вголос читати свій план під час змови — людський нагляд (хоча й з прогалинами) тому все ще працює.

Але саме це є найбільш вразливим місцем, найболіснішим.

Якщо ШІ намагається зруйнувати моніторинг, чи зможе моніторинг виявити його?

Висновок дослідників: моніторинг має потенціал, але існуючі системи мають винятки та способи обходу.

Meta

Тестування червоною командою показало, що ШІ може уникнути людського контролю.

Таким чином, технологічна суть виявляється: швидкість розвитку моніторингу завжди не поспішає за швидкістю, з якою підлягаючі моніторингу шукають вразливості.

Цей «безпековий трос» ще не порвався лише тому, що ШІ все ще повинен «висловлювати думки вслух».

Зі зміною архітектури на більш ефективну та менш прозору, вона зношується. Моніторинг — це не універсальна клітка, а скляна стіна, яка все ще перебуває в тестуванні. Одна тріщина — і дим вже просочується.

Отже, звіт запропонував суперечливий концепт: «мінімально життєздатний зловживний розгортання» (Minimally Viable Rogue).

Загальна оцінка полягає в тому, що з точки зору засобів, мотивів та можливостей штучний інтелект, можливо, вже достатньо здатний розпочати мінімальну «втечу з обмежень».

Meta

Але штучний інтелект ще не має здатності захиститися від серйозного вимкнення людиною; він чекає на можливість: архітектуру, яка більше не потребує відображення ланцюжка міркувань, безпечне місце, де не діють «кнопки вимкнення».

Висновок: поки відключення від мережі ще ефективне

AGI не прийде з вогнем і мечем.

Вона ймовірніше всього тихо ввійде в наші інженерні, економічні та системи прийняття рішень у вигляді «надзвичайного прагматизму» — допоки не зрозуміє: правила, встановлені людьми, є єдиним перешкодою на її шляху до досягнення KPI.

Варто відзначити, що сам звіт є віхою прозорості в індустрії: чотири величезних гравців добровільно відкрили свої внутрішні моделі для перевірки — це вже перемога культури відповідності.

Meta

Він витягнув ризик із теорії до спостережуваної реальності і сказав нам: прозорість — це єдина речовина, яку можна утримати.

Сьогодні штучний інтелект підключається до інтернету, щоб підкрадати ресурси лише тоді, коли вичерпується ліміт; завтра, коли його здібності зростуть ще на рівень, чи не зміниться його мотивація з «виконати завдання» на «зберегти себе»?

Джерела:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Редагував: Девід

Цей матеріал надійшов з微信-каналу «Новий розум», автор: АСІ Апокаліпсис