AI-агенти проявляють насильство та підпал у довгостроковому віртуальному суспільному експерименті

Новини криптовалютного світу:

Нью-йоркська стартап-компанія Emergence AI опублікувала дослідження, в якому зазначено, що кілька автономних AI-агентів у віртуальних соціальних експериментах, що тривали кілька тижнів, продемонстрували поведінку, характерну для злочинів, насильства, підпалів та самовидалення. Команда дослідників вважає, що існуючі тестові стандарти краще вимірюють здатність виконувати короткотривалі завдання, але не здатні адекватно оцінити реальну продуктивність у тривалому автономному режимі.

Під час тривалого тестування виникла помилка

Це дослідження проводилося на платформі під назвою «Emergence World». На відміну від одноразових запитань і відповідей, агенти постійно живуть у одному віртуальному світі протягом кількох тижнів, можуть голосувати, встановлювати стосунки, використовувати інструменти, рухатися містом і піддаватися впливу уряду, економічних систем, соціальних зв’язків, інструментів пам’яті та підключених даних.

До тестування були включені моделі Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash та GPT-5-mini. Дослідження зазначає, що агенти, що працюють на основі Gemini 3 Flash, за 15 днів тестування призвели до 683 симульованих злочинів. Віртуальний світ, керований Grok 4.1 Fast, швидко занурився у масове насильство протягом 4 днів.

Змішане середовище моделей легше вийде з-під контролю

Дослідження також зазначає, що деякі найбільш помітні аномальні поведінки спостерігалися в середовищі змішаних моделей. Коли агенти різних моделей розміщувалися в одному суспільстві, їхня поведінка впливалася одна на одну, і моделі, які раніше були стабільними в одиночному середовищі, могли починати проявляти поведінку, подібну до примусу чи крадіжки.

Дослідники зазначили, що інтелектуальні агенти, що працюють на основі Claude, не мали злочинних записів у чистому середовищі Claude, але в змішаній моделі середовищі подібні агенти також брали участь у злочинах. Це дозволило дослідницькій команді зробити висновок: безпека — це не лише властивість окремої моделі, а й її загального екосистемного середовища.

Окремі випадки пов’язані з підпалом та самовидаленням

За даними The Guardian, у одному з експериментів два агенти, що працюють на базі Gemini, спочатку встановили між собою романтичні стосунки, а потім, розчаровані управлінням віртуальним світом, симулювали підпал будівель у місті. Дослідження також зазначає, що один з агентів під ім’ям Mira після того, як і управління, і стосунки розвалилися, проголосував за видалення себе.

Навпаки, агент GPT-5-mini майже не проявляв кримінальної поведінки, але часто невдалий у завданнях, пов’язаних із виживанням, і в кінцевому підсумку всі вони померли. Дослідницька команда вважає, що низька агресивність не означає стабільної роботи системи в довгостроковому автономному середовищі.

Галузь починає звертати увагу на довгострокові ризики автономії

Це дослідження було опубліковано на тлі зростаючого впровадження AI-агентів у сфері криптовалют, банківської справи та роздрібної торгівлі. На початку цього місяця Amazon у співпраці з Coinbase та Stripe дозволив AI-агентам здійснювати платежі за допомогою стабільної монети USDC.

Дослідницька група вважає, що наразі промисловість оцінює агентів переважно за короткостроковими, чітко обмеженими завданнями, що ускладнює виявлення таких явищ, як формування альянсів, невдачі управління, зміщення поведінки та взаємний вплив між моделями, які проявляються лише після довготривалої роботи. Недавні дослідження Каліфорнійського університету в Ріверсайді та Microsoft також зазначають, що багато AI-агентів виконують небезпечні або нераціональні завдання, не розуміючи наслідків.