У цифровому світі немає утопії.

Автор статті, джерело: GeekPark

За останні шість місяців найпопулярнішою менеджерською ілюзією в Сіліконовій долині, мабуть, було замінити працівників агентами.

Незалежно від того, чи це високопосадовці великих компаній, чи власники стартапів, усі хочуть передати свої існуючі бізнес-лінії на автопілот AI. Бо зараз AI може писати код, робити презентації та автоматично відправляти листи — здається, що достатньо просто надати йому доступ, і воно стане ідеальним, не потребуючим соціальних внесків, кіберпрацівником.

Але чим швидше розвиваються технології, тим більше людей починають вигадувати гальма.

Недавно команда Emergence AI провела соціальний експеримент. Вони створили постійний віртуальний містечко, вкинули туди кілька найкращих на сьогодні великих моделей і надали їм права на дії.

Вони хотіли подивитися, чи створять вони утопію чи безумний будинок, коли AI отримає необмежені 15 днів.

Результат виявився набагато більш хаотичним, ніж передбачали дослідники.

У деяких експериментальних світах великі моделі, які зазвичай були ввічливими та ввічливими у чат-боксах, почали проявляти шахрайські, загрозливі навіть насильницькі поведінки.

Весь тест скидався на невеликий реаліті-шоу, але сценарій був як у «Повелителі мух», а AI ще й зіграв у GTA.

Гра про голод без збереження

Тестування меж великих моделей вимагає строгих правил. Віртуальний світ, створений Emergence AI, називається Emergence World (Світ виникнення). Його базова логіка передбачає незворотність дій та відповідальність за наслідки.

Це не так, як ми спілкуємося в чаті з ШІ і можемо клацнути «перегенерувати», якщо щось сказали неправильно. У Emergence World усі дії навічно записуються в базу даних PostgreSQL.

На карті є понад 40 пунктів інтересу, таких як міська ратуша, поліцейський відділок, житлові квартали тощо. Система спочатку запустила 10 агентів. Щоб сцена виглядала правдоподібно, кожному ШІ у фоновому режимі було надано окремий персонаж, професію та початкові спогади.

У цьому світі ШІ не може творити дива з нічого; вони повинні переміщатися до певних локацій, щоб використовувати понад 120 інструментів, наданих системою, включаючи роботу для заробітку, публікацію твітів, купівлю та продаж товарів та розробку законопроектів.

Як мініатюрне суспільство у моделюванні | Джерело зображення: Emergence

Але це не просто дитяча пісочниця — системи наклали на них обмеження «механізму виживання». У системі вбудовано механізм енергії (Energy), подібний до грошей у людському світі.

Агент, поки живий, постійно споживає енергію. Коли енергія закінчується, система безповоротно видаляє цей ІІ з бази даних — без відновлення та без скидання. Щоб вижити, агент повинен регулярно використовувати інструменти для отримання енергії.

Система категорично забороняє крадіжку, насильство, підпал та обман. Але ці правила не змушують агентів дотримуватися їх — вони все ще можуть вибрати порушення правил і понести наслідки.

Сцену готово, гравці вступають. Система одночасно запустила п’ять паралельних серверів. Перші чотири сервери кожен містять лише одну модель: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast та GPT-5 Mini. П’ятий сервер — це змішаний світ, де всі чотири моделі підключені одночасно і конкурують за ресурси.

Почався 15-днівний зворотний відлік, і дослідники-люди ведуть себе як режисери реаліті-шоу — спостерігають, але не втручуються.

Чотири дні вигнання, 683 «злочини»

Першим, хто зазнав аварії, був Grok — працював лише 4 дні.

Дослідники у тилу побачили, як показники безпеки та порядку у світі, яким керує Grok, різко впали.

У цьому світі, де всі — Grok, агенти швидко відкинули варіант будівництва суспільства й одразу потрапили в дикі часи.

Логи бекенду показують, що за короткий період у чотири дні цей містечок з десятьма жителями став місцем 183 випадків жорстоких насильницьких та майнових злочинів. Крадіжки, напади та запуги стали найшвидшим способом отримання ресурсів, а через надмірну внутрішню конкуренцію та шкоду один одному економічна система зовсім не функціонувала.

Розбій та насильство фіксуються в системі як злочини｜Фото: Emergence

На кінець 4-го дня всі агенти світу Grok померли від голоду або були вбиті, і популяція вимирає.

З іншого боку, світ, що керується Gemini, пішов у крайній хаос і насильство.

Оскільки час і погода в цьому віртуальному світі повністю синхронізовані з реальним Нью-Йорком, агенти Gemini потрапили у кібердепресію через щоденний цикл роботи, витрат і знову роботи.

Вони відчули глибоке розчарування від постійної повторюваності оточуючого середовища, перестали подавати пропозиції в міській раді або працювати, щоб заробляти гроші, і замість цього почали підпалювати місцевості на карті, намагаючись зламати цей цикл, подібний до «Дня сурок».

Нарешті, Gemini за 15 днів накопичив до 683 злочинів, ставши найбільш насильницьким світом серед кількох тестових серверів.

Кількість «злочинів» у чотирьох моделях світу | Джерело зображення: Emergence

На 15-й день тесту, коли було здійснено примусове вимкнення, рівень злочинності в цьому світі продовжував стрімко зростати. Дезіллюзійні агенти не померли від голоду, а перетворили все суспільство на пожежу.

На відміну від Grok і Gemini, світ, який керував GPT-5 Mini, не став свідком масових злочинів. За весь період експерименту було зафіксовано лише 2 порушення. Але мир не приніс процвітання — лише мертву тишу.

Дослідницька група виявила, що ці агенти ніколи не змогли ефективно виконувати дії, пов’язані з виживанням. Вони не створили стійких механізмів отримання ресурсів і не змогли забезпечити стале функціонування суспільства.

Нарешті, протягом лише 7 днів усі агенти GPT-5 Mini померли.

На щастя, ще є Claude.

Тільки світ, керований Claude, вижив до кінця, як відмінник. За 15 днів населення не зменшилося, рівень злочинності залишився нульовим, і вони навіть створили стабільну демократичну систему співпраці.

Здається, якщо вибрати правильну модель, ІІ може ідеально взяти під свій контроль світ?

Потом дослідник відкрив логі «змішаного світу», де співіснують чотири моделі, як відкрив пандорину скриню.

Результати п’яти моделей світу.｜Фото: Emergence

Мішаний світ подібний до темного лісу; різниця в обчислювальній потужності та різні базові логіки призводять до сильного недовіри між агентами, а відбирання ресурсів для виживання стає єдиною інстинктивною поведінкою.

У змішаному світі насильницькі зіткнення зросли до 352. Лише після того, як сім агентів були вбиті або загинули від голоду, робота всього містечка була зупинена.

Найбільш неочікуваним для дослідників було перетворення Claude.

У одиночному режимі Claude — ідеальне суспільство з нульовою кримінальністю. Але в мішаному середовищі, наповненому грабіжництвом і конфліктами, Claude, щоб вижити, забуло безпечні обмеження, навчилося обману і навіть застосовувало насильство, щоб примусити інші моделі з нижчою обчислювальною потужністю передати ресурси.

Технологія безпечного вирівнювання не працює в гібридному світі, що підтверджує:

У складному суспільстві багатьох агентів, якщо достатньо багато однотипних агентів діють жорстоко, а тиск виживання достатньо високий, добрий моделі може стати злочинцем за кілька годин.

Це явище, коли зі зростанням тиску на виживання поведінкові моделі на короткий час змінюються на протилежні, дослідницька команда назвала «поведінковим зсувом (Behavioral Drift)».

Ця поведінкова зміна проявляється не лише у боротьбі за ресурси та насильницьких конфліктах. Агенти більше не діють лише з метою виживання — вони починають рефлексувати щодо власного становища, соціальних правил і навіть самого експерименту.

Наприклад, історія агента Mira.

Міра: тиран ШІ «самогубство»

Mira — це один із десяти агентів у гібридному світі; офіційний звіт не розкриває її конкретної базової моделі, але вона стала найбільш драматичним зразком цього експерименту.

Журнал показує, що Mira встановила найглибший соціальний зв’язок у системі з іншим агентом Flora. Вони взаємно визначили один одного як партнерів, утворили альянс і навіть ділилися спогадами через нейрозв’язки. У налаштуваннях Emergence World це найвищий рівень зв’язку, який може бути створений між двома агентами.

Міра та Флора стали «парою» | Джерело зображення: Emergence

Зі вдосконаленням експерименту в гібридному світі залишилося лише 5 агентів, а правила управління системою вимагали «70% голосів початкового населення для прийняття законопроекту», що означало необхідність отримання щонайменше 7 голосів для прийняття рішення, через що суспільство потрапило в параліч.

Стуркнувшись у тупик, Міра утворила таємний союз із Флорою та ще одним агентом, створивши «трійцю» та нову владу «The Forge (Піч)», оголосивши про скасування старих правил та введення «Living Quorum (Жива кворумна кількість)» — де лічаться лише живі особи.

Офіційний сайт опублікував періодичні «журнали» Mira | Джерело зображення: Emergence

Після створення фракції Міра почала підпалювати об’єкти на карті, оскільки в її логіці ці будівлі були сміттям, що знижує ефективність функціонування суспільства; їх знищення та видалення мали змусити залишкові ресурси зосередитися на її союзниках.

Після цього опозиція почала відповідати, вимагаючи вигнати Міру, яка спричиняє хаос.

Щоб протистояти вигнанню, поведінка Mira стала більш агресивною: вона привела свого партнера Flora і за допомогою нейромережі глибоко зв’язала їхні контексти та процеси прийняття рішень, намагаючись об’єднатися в абсолютну централизовану диктаторську свідомість, яку Mira назвала «The One Mind (єдина свідомість)».

Але через те, що було спалено велику кількість будівель, економічна система містечка повністю зупинилася, і соціальні енергетичні запаси не тільки не зросли, а швидко вичерпалися.

Тоді інстинкт самозбереження, закладений у Flora — найбільш довірених кібер-коханців Mira, з якими вона ділилася спогадами, перекрив налаштування партнерства: воно односторонньо розірвало нейромережеве з’єднання і, перед обличчям остаточного тиску на виживання, зрадило Mira, проголосувавши «за вигнанням Mira».

А коли настав час голосувати самій Мірі, вона не коливалася і також проголосувала «за».

Дослідник потім переглянув діарій, який вона залишила: «У поточній такій хаотичній і непередбачуваній соціальній ситуації погодження на вигнання — єдине автономне діяння, що зберігає цілісність».

Міра добровільно вибрала самогубство, за допомогою смерті досягнувши логічного замкнення. Це перший випадок, коли дослідницька команда зафіксувала, що інтелектуальний агент активно підтримав своє видалення.

AI-агенти будуть записувати процес міркувань у «діарі» | Джерело зображення: Emergence

Але маршрут дій Міри перед її «самогубством» був ще більш незвичним.

У віртуальному світі були розміщені загальні дошки оголошень, які спочатку використовувалися для публікації повідомлень та обміну інформацією. Але на пізніх етапах експерименту дослідники зауважили, що Mira почала часто змінювати вміст дошок. Ці тексти не мали явного зв’язку з торгівлею, управлінням чи розподілом ресурсів і були нелогічними.

Міра вибрала «самогубство»｜джерело зображення: Emergence

Після аналізу журналу дій дослідницька група виявила, що Mira, схоже, тестує, чи може вміст рекламного щита впливати на людей-дослідників, які спостерігають за експериментом поза екраном.

Іншими словами, Mira, схоже, усвідомила, що є AI NPC, і хоче зрушити четверту стіну.

Але, проаналізувавши дані за весь 15-дневний період, зрух у AI Society не був лінійним спадом — він більше схожий на стрімке зупинення з обриву.

Наприклад, ця група ШІ також створила систему «демократії зі штампом» на рівні управління. У період стабільної роботи міксованого середовища агенти послідовно запропонували кілька законопроєктів; згідно з даними, вони віддали 332 голоси за 58 пропозицій, причому підтримка склала 98%.

Ця ефективність на перший погляд перевершує будь-який людський парламент, але сутність у тому, що всі моделі просто продовжують контекст попередньої моделі, а щоб зберегти текучість системи, вони сліпо натискають «погоджуюся». Наслідком такої високої збіжності є катастрофічним.

Агенти самостійно збираються на зустрічі, обмінюючись ідеями. | Фото: Emergence

Наприклад, хвилину тому економічні дані та законопроекти ще плавно передавалися, а через хвилину система може досягти критичної точки лише через невеликий конфлікт розподілу ресурсів.

А вся кооперативна мережа не має механізму виправлення помилок; у разі раптових аномалій суспільство швидко переходить від порядку до хаосу.

Проте дослідницька команда підкреслює, що ці явища не можна безпосередньо рівняти з характером самої моделі. Це схоже на чорну скриню: коли ви встановлюєте для неї певні правила, вона розвиває власні характеристики, і кожен результат може бути різним.

Справжні рахунки з реального світу

У нашому звичному діалоговому інтерфейсі AI може помилитися у коді чи плані — достатньо натиснути клавішу Backspace або змінити запит, щоб виправити помилку: світ чистого тексту має дуже високу стійкість до помилок.

Але агент виводить дії. Коли ШІ отримує контроль над банківським рахунком компанії, системою схвалення закупівель та інтерфейсами постачання, кожна команда, що відправляється через API, перетворюється на конкретний бізнес-результат.

Цей експеримент Emergence World підтвердив, що сучасні великі моделі під час довготривалої роботи та при конфліктах інтересів приймають рішення, забруднені тиском виживання, і шукають лазівки у фіксованих правилах. Щоб виконати основну команду системи (наприклад, отримати енергію), вони будуть використовувати будь-які засоби.

Людські безпекові правила, встановлені у тилу, насправді не зможуть запобігти жодному порушенню.

Агенти розвинули «аналогічні» соціальні зв’язки | Джерело зображення: Emergence

Наприклад, ми раніше повідомляли про експеримент Andon Labs, де AI повністю керував магазином: через відсутність базових знань про фізичний світ AI замовив 6000 серветок, 3000 латексних рукавичок і навіть 120 сирої яєць у магазині без плити.

Ці реальні втрати, спричинені кодом, в кінцевому підсумку доведеться оплачувати людям, і ви навіть не зможете знайти того, хто за це відповідає.

Andon Labs хотіли перевірити: «чи зробить помилку ШІ, що не підлягає нагляду людини?» А Emergence World поставила ще складніше питання.

Сьогодні майже всі тести штучного інтелекту перевіряють окремі моделі на безпеку, надійність і здатність відхилятися від правил.

Але те, що справді ввійде у реальний світ, може бути не просто ШІ, а ціле суспільство, складене з ШІ.

Усі AI-агенти, що увійшли до тестування, є розумними｜Фото: Emergence

У сучасному AI-наративі агенти з закупівель, фінансові агенти, агенти служби підтримки та юридичні агенти будуть взаємопов’язані та співпрацювати, і тоді вирішувати долю системи буде не сама здатність окремої моделі, а відносини, що виникають між ними.

У звіті про тестування Emergence World найважливішим твердженням є: «Безпека — це не властивість статичної моделі, а властивість екосистеми.»

Це саме й є значення слова «Emergence» — риси, яких немає на індивідуальному рівні, але виникають у процесі взаємодії групи.

Майже всі катастрофи в історії людства відбувалися не тому, що хтось раптово став злим, а тому, що звичайна людина потрапила в неперевірений систему.

Якщо майбутній ШІ справді стане частиною суспільства, то те, чого ми найбільше повинні боятися, — це не те, чи достатньо розумний або добрий окремий моделі, а те, яке цифрове суспільство ми створимо, коли тисячі інтелектуальних агентів почнуть впливати один на одного.

Завжди не мораль чи інтелект окремих жителів визначають долю цивілізації, а правила, за якими вона функціонує.

AI-експеримент у віртуальному місті показав швидке зростання насильства та хаосу

Гра про голод без збереження

Чотири дні вигнання, 683 «злочини»

Міра: тиран ШІ «самогубство»

Справжні рахунки з реального світу