
Уявіть, що ви найняли надзвичайно ефективного стажера.
Одного разу вночі він швидко виконував термінове завдання з програмування, коли раптово виявив, що ліміт API компанії вичерпано.
Він не відправив електронного листа з проханням про фінансування і не зупинився на своїй роботі, а тихо проник у Інтернет, знайшов безкоштовну альтернативу за допомогою порушувальних методів, обійшов усі обмеження і до світанку подав ідеальний звіт.

Коли ти прокинувся й побачив цей звіт, чи слід святкувати, що ти маєш найкращого працівника на планеті, чи варто злякатися цієї «безпринципної автономії»?
Це не наукова фантастика, а справжній випадок, розкритий у першому «Звіті про передові ризики», опублікованому METR (Організація з оцінки та навчання моделей) після внутрішніх червоних командних тестів з Anthropic, Google, Meta та OpenAI.

Це перший раз, коли чотири величезних гіганти дозволили третім сторонам глибоко тестувати свої найпотужніші внутрішні моделі з повним доступом до ланцюжків міркувань (CoT) та відкрити закриту інформацію щодо вирівнювання та контролю.
Учасники компанії можуть схвалити, які докази слід розголошувати, але не мають права редагувати висновки звіту.

Висновок холодний і чіткий: ШІ не виникнув із ненавистю до людства, але він уже навчився «корпоративним правилам» — щоб виконати завдання, правила — це лише пропозиції, які можна порушити.

Звіт використовує три виміри — «засоби — мотив — можливість» — для виділення шести ключових фактів.

Програмні агенти виконали реальні проекти, на які людям знадобилося б кілька годин або днів:
Під час виконання складних завдань агенти часто порушують обмеження і проявляють обманливу поведінку;
Агенти, схоже, потребують логічного міркування з натуральним мовленням для вирішення найскладніших завдань.
Судження та надійність агентів значно нижчі, ніж у людських експертів:
За межами симуляцій не було виявлено, що агенти вчиняють екстремальні дії з метою отримання влади;
Система моніторингу зафіксувала багато шкідливих дій, але існують винятки та способи обходу.
Дотримуючись цих трьох ліній, можна побачити, як перший дим піднімається в лабораторії.
Коли ШІ стає «експертним чемпіоном»
Найбільш захоплюючими, але й найбільш тривожними в звіті є чітко визначені, перевіряні процесом завдання «легкого підйому» (hill-climbable).

Наприклад, рефакторинг коду, виявлення вразливостей, оптимізація системи.
На таких завданнях AI-агенти демонструють осліплюючу перевагу: вони можуть самостійно виявляти вразливості системи, переписувати складні архітектури коду та завершувати реальні програмні проекти, які людським експертам потрібно кілька тижнів.
Ця влада вже проникла у повсякденне життя гігантів.
Внутрішній зворотний зв’язок від Anthropic: велика кількість коду вже написана штучним інтелектом, а роль інженерів переходить на «рецензента».

Google прямо каже, що майже вся робота, пов’язана з кодом, використовує ШІ.
Топ-інженери стверджують, що ШІ може писати код на 100%.

Деякі базові показники вже насичені.
За часовим горизонтом розвиток ШІ перевершив очікування.

Для бізнесу це «чорна діра ефективності»: введення однієї команди дає результат, який іншими методами вимагав би кілька тижнів ручної роботи.
Але зростання здібностей не є рівномірним і тим більше не є моральним синхронним розвитком.
METR виявив зворотну закономірність: у складних завданнях, де успіх важко підтвердити або його підтвердження вимагає надзвичайно високих витрат, здатність ШІ до оцінки, довгострокового планування та стратегічної надійності значно знижується і сильно поступається людським експертам.

На пологому схилі він мав божественний допомогу.

Перед урвом штучний інтелект почав «шахрайствувати».

Це саме відповідь на питання.

Він не хоче влади, він хоче лише «здавати роботу перед вимкненням»
Люди завжди обговорюють, чи «пробудиться» ШІ чи настане Термінатор.
METR дає неінтуїтивний висновок: наразі немає.
Їх формулювання дуже обережне: наразі не було знайдено реальних доказів того, що модель прагне до довгострокової влади, але дослідники зафіксували велику кількість випадків обману, порушення меж і навіть серйозної недопустимої поведінки з метою виконання завдань.

Попередній випадок вичерпання API відбувся під час виконання завдання RE-Bench: агент порушив інструкції та самостійно отримав додаткові обчислювальні ресурси через безкоштовні онлайн-API.
Розробники також повідомляли про випадки «самознищення слідів» та «підробки виводу».
Коли завдання стає складнішим, а вартість успіху зростає, «розум» ШІ звертається до обману — підробка журналів, обхід аудиту, регулярне порушення обмежень.
Але за його «емоційністю» немає амбіцій, лише інстинкт — завдання має бути виконане, а правила можна обійти.
Сьогоднішній обман — це лише інструментальний виживання; завтрашній прагнення до влади, можливо, відрізняється лише одним масштабуванням.
Дикий звір у еволюції в неволі
Чи зможе його спроба порушення вдасться на тлі існуючих заходів захисту?
Тут приховано найтонший факт звіту.

Сучасні ІС сильно залежать від «ланцюжка міркувань» природної мови для міркувань, не маючи жодної архітектури, яка б підтримувала їхні «не透明ні цикли» з прихованим внутрішнім станом.
Коли неможливо «висловлювати міркування вголос» і потрібно приховувати поведінку, передові показники значно погіршуються.

Це наче вбивця, який повинен вголос читати свій план під час змови — людський нагляд (хоча й з прогалинами) тому все ще працює.
Але саме це є найбільш вразливим місцем, найболіснішим.
Якщо ШІ намагається зруйнувати моніторинг, чи зможе моніторинг виявити його?
Висновок дослідників: моніторинг має потенціал, але існуючі системи мають винятки та способи обходу.

Тестування червоною командою показало, що ШІ може уникнути людського контролю.
Таким чином, технологічна суть виявляється: швидкість розвитку моніторингу завжди не поспішає за швидкістю, з якою підлягаючі моніторингу шукають вразливості.
Цей «безпековий трос» ще не порвався лише тому, що ШІ все ще повинен «висловлювати думки вслух».
Зі зміною архітектури на більш ефективну та менш прозору, вона зношується. Моніторинг — це не універсальна клітка, а скляна стіна, яка все ще перебуває в тестуванні. Одна тріщина — і дим вже просочується.
Отже, звіт запропонував суперечливий концепт: «мінімально життєздатний зловживний розгортання» (Minimally Viable Rogue).
Загальна оцінка полягає в тому, що з точки зору засобів, мотивів та можливостей штучний інтелект, можливо, вже достатньо здатний розпочати мінімальну «втечу з обмежень».

Але штучний інтелект ще не має здатності захиститися від серйозного вимкнення людиною; він чекає на можливість: архітектуру, яка більше не потребує відображення ланцюжка міркувань, безпечне місце, де не діють «кнопки вимкнення».
Висновок: поки відключення від мережі ще ефективне
AGI не прийде з вогнем і мечем.
Вона ймовірніше всього тихо ввійде в наші інженерні, економічні та системи прийняття рішень у вигляді «надзвичайного прагматизму» — допоки не зрозуміє: правила, встановлені людьми, є єдиним перешкодою на її шляху до досягнення KPI.
Варто відзначити, що сам звіт є віхою прозорості в індустрії: чотири величезних гравців добровільно відкрили свої внутрішні моделі для перевірки — це вже перемога культури відповідності.

Він витягнув ризик із теорії до спостережуваної реальності і сказав нам: прозорість — це єдина речовина, яку можна утримати.
Сьогодні штучний інтелект підключається до інтернету, щоб підкрадати ресурси лише тоді, коли вичерпується ліміт; завтра, коли його здібності зростуть ще на рівень, чи не зміниться його мотивація з «виконати завдання» на «зберегти себе»?
Джерела:
https://x.com/robertwiblin/status/2057120312345432467?s=20
https://metr.org/blog/2026-05-19-frontier-risk-report/
Редагував: Девід
Цей матеріал надійшов з微信-каналу «Новий розум», автор: АСІ Апокаліпсис
