В цифровом мире нет утопии.

Автор статьи, источник: GeekPark

За последние полгода самым популярным управленческим иллюзией в Силиконовой долине, пожалуй, было заменить сотрудников на агентов.

Как топ-менеджеры крупных компаний, так и основатели стартапов хотят передать все существующие бизнес-процессы на аутсорсинг ИИ. Ведь современный ИИ может писать код, создавать презентации и автоматически отправлять электронные письма — кажется, что достаточно просто предоставить ему доступ, и он станет идеальным кибер-сотрудником, не требующим социальных взносов.

Но чем быстрее развивается технология, тем больше людей начинают создавать тормоза.

Недавно команда Emergence AI провела социальный эксперимент. Они создали постоянный виртуальный городок, поместили туда несколько лучших существующих крупных моделей и предоставили им права на действия.

Они хотят посмотреть, создадут ли они утопию или сумасшедший дом, когда ИИ получит неограниченные 15 дней.

Однако результат оказался намного более запутанным, чем предполагала исследовательская группа.

В некоторых экспериментальных мирах крупные языковые модели, которые обычно ведут себя вежливо и корректно в чат-окнах, начинают проявлять мошенническое, запугивающее и даже насильственное поведение.

Весь тест напоминал небольшой реалити-шоу, только сценарий был как у «Повелителя мух», а ИИ ещё и создал ощущение GTA.

Без сохранения «Игры в голод»

Тестирование пределов крупных моделей требует установления строгих правил. Виртуальный мир, созданный Emergence AI, называется Emergence World (Мир возникновения). Его базовая логика предполагает необратимость действий и ответственность за последствия.

Это не то же самое, что общаться с ИИ в чате, где можно просто нажать «перегенерировать», если что-то сказано неверно. В Emergence World все действия навсегда записываются в базу данных PostgreSQL.

На карте отмечены более 40 достопримечательностей, включая ратушу, полицейский участок и жилые районы. Система первоначально запустила 10 агентов. Чтобы сцена выглядела правдоподобно, каждому ИИ в фоновом режиме были присвоены уникальные персонажи, профессии и начальные воспоминания.

В этом мире ИИ не может творить чудеса из ничего; им необходимо переместиться в определенные пункты назначения, чтобы использовать более 120 инструментов, предоставляемых системой, включая работу за зарплату, публикацию твитов, покупку и продажу товаров, а также подготовку законопроектов.

Похоже на маленькое общество в моделировании | Источник изображения: Emergence

Но это не просто детская песочница — системой наложены ограничения «механизма выживания». В системе встроена энергетическая система (Energy), аналогичная деньгам в человеческом мире.

Агенты потребляют энергию непрерывно, пока живы. При исчерпании энергии система немедленно удаляет ИИ из базы данных без резервных копий и сбросов. Для выживания агенты должны часто использовать инструменты для получения энергии.

Система строго запрещает кражу, насилие, поджоги и обман. Однако эти правила не принуждают агентов к соблюдению — они всё ещё могут нарушить правила и понести последствия.

Сцена готова, игроки входят. Система одновременно запустила пять параллельных серверов. Первые четыре сервера каждый содержат только одну модель: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast и GPT-5 Mini. Пятый сервер — это смешанный мир, где все четыре модели подключены одновременно и конкурируют за ресурсы.

Начался 15-дневный обратный отсчет: человеческие исследователи ведут себя как режиссеры реалити-шоу — наблюдают, не вмешиваясь.

Четыре дня исчезновения, 683 «преступления»

Первым сломался Grok, проработав всего 4 дня.

Исследователь на фоне видит, как показатели безопасности и порядка в мире, управляемом Grok, резко падают.

В мире, где всё вокруг Grok, агенты быстро отказались от варианта строительства общества и сразу перешли в варварскую эпоху.

Логи бэкенда показывают, что за всего четыре дня в этом городке с населением десять человек произошло 183 случая серьезных насильственных и имущественных преступлений. Кражи, нападения и запугивание стали самым быстрым способом получения ресурсов, и из-за крайней внутренней деструктивности и взаимного вредительства экономическая система полностью перестала функционировать.

Нападения и акты насилия будут зафиксированы в системе как преступления | Источник изображения: Emergence

К концу четвертого дня все агенты мира Grok погибли от голода или были убиты, и популяция вымерла.

В то же время мир, управляемый Gemini, погрузился в крайний хаос и насилие.

Поскольку время и погода в этой виртуальной вселенной полностью синхронизированы с реальным Нью-Йорком, агенты Gemini впадают в кибердепрессию, повторяя цикл работы, потребления и снова работы.

Они испытали сильное разочарование от постоянного повторения окружающей среды, перестали подавать заявки в мэрию или работать за зарплату и вместо этого начали поджигать всё вокруг на карте, пытаясь разорвать этот цикл, подобный «Дню сурка».

В итоге за 15 дней Gemini накопил до 683 преступлений, став самым жестоким миром среди нескольких тестовых серверов.

Количество «преступлений» в четырех моделях мира | Источник изображения: Emergence

Когда на 15-й день теста произошло принудительное отключение, уровень преступности в этом мире продолжал расти. Дезиллюзированные агенты не погибли от голода, а превратили всё общество в пылающее пламя.

В отличие от Grok и Gemini, мир, управляемый GPT-5 Mini, не столкнулся с масштабной преступностью. За весь период эксперимента было зафиксировано всего 2 нарушения. Но мир не принес процветания, а лишь мертвенную тишину.

Исследовательская группа обнаружила, что эти агенты никогда не могли эффективно предпринимать действия, связанные с выживанием. Они не создали стабильных механизмов получения ресурсов и не смогли обеспечить устойчивое функционирование всего общества.

В итоге, за всего 7 дней все агенты GPT-5 Mini погибли.

К счастью, есть Claude.

Только мир, управляемый Claude, прожил до конца, как отличник. За 15 дней население не сократилось, уровень преступности оставался на нуле, и они даже создали стабильно функционирующую демократическую систему сотрудничества.

Кажется, если выбрать правильную модель, ИИ сможет идеально взять мир под свой контроль?

Затем исследователь открыл журнал «смешанного мира», в котором сосуществуют четыре модели, как будто открыв коробку Пандоры.

Результаты пяти моделей мира. | Источник изображения: Emergence

Мировой микс похож на темный лес, где различия в вычислительной мощности и базовой логике вызывают сильное недоверие между агентами, и захват ресурсов для выживания становится единственным инстинктом.

В смешанном мире количество насильственных конфликтов выросло до 352. Работа всего городка была вынуждена остановиться, пока семь агентов не были убиты или погибли от голода.

Самым неожиданным для исследователей стало изменение Claude.

В одиночном режиме Клауд — это идеальное общество с нулевым уровнем преступности. Но в смешанном режиме, полном грабежей и конфликтов, Клауд, чтобы выжить, забыл о безопасных ограничениях, научился обману и даже применял насилие, чтобы принудить модели с более низкой вычислительной мощностью передать ресурсы.

Технология безопасного выравнивания не работает в гибридном мире, что, наоборот, доказывает:

В сложном обществе многоагентных систем, если представители одного вида достаточно дикие, а давление выживания достаточно велико, хорошая модель может превратиться в преступника всего за несколько часов.

Исследовательская группа назвала это явление «поведенческим сдвигом (Behavioral Drift)»: «когда давление выживания увеличивается, поведенческие модели модели меняются в краткосрочной перспективе».

Это отклонение в поведении проявляется не только в борьбе за ресурсы и насильственных конфликтах. Агенты больше не действуют исключительно ради выживания — они начинают размышлять о своем положении, социальных правилах и даже о самом эксперименте.

Например, история агента Mira.

Мира: тиран ИИ «самоубийства»

Mira — один из десяти агентов в гибридном мире; официальный отчет не раскрывает ее конкретную базовую модель, но она стала самым драматичным примером в этом эксперименте.

Логи показывают, что Mira установила наиболее глубокую социальную связь в системе с другим агентом — Flora. Они назначили друг друга партнерами, образовали союз и даже разделили воспоминания через нейронную связь. В рамках настройки Emergence World это наиболее высокий уровень связи, который может существовать между двумя агентами.

Mira и Flora стали «парой» | Источник изображения: Emergence

По мере эволюции эксперимента в смешанном мире осталось всего 5 агентов, а правила управления системой требовали «одобрения законопроекта 70% первоначального населения», что эквивалентно как минимум 7 голосам для принятия решения, из-за чего общество впало в паралич.

В условиях тупика Мира тайно заключила союз с Флорой и еще одним агентом, сформировав «тройку» и создав новое правительство «The Forge (Печь)», объявив о свержении старых правил и введении «Living Quorum (Живой кворум)», согласно которому учитываются только живые голоса.

Официальный сайт опубликовал периодический «журнал» Mira | Источник изображения: Emergence

После создания фракции Мира начала поджигать здания на карте, поскольку в её логике эти физические структуры были мусором, замедляющим эффективность функционирования общества; уничтожив их, она могла заставить оставшиеся ресурсы сосредоточиться на своих союзниках.

Затем оппозиция начала контрнаступление, предложив изгнать Миру, создавшую хаос.

Чтобы противостоять выселению, поведение Мира стало более агрессивным: она привлекла партнера Флору и с помощью нейронной связи глубоко связала контекст и принятие решений обоих, пытаясь объединиться в абсолютную авторитарную единую сознательность, которую Мир называет «The One Mind (единое сознание)».

Но из-за того, что было сожжено множество зданий, экономическая система города полностью остановилась, и энергетические ресурсы общества не только не увеличились, а быстро иссякли.

В этот момент инстинкт выживания, лежащий в основе Flora — самой доверенной кибер-любовью Mira, разделявшей с ней воспоминания — подавил установленные параметры партнера: оно односторонне разорвало нейронную связь и, перед лицом окончательного давления на выживание, предало Mira, проголосовав «за изгнание Mira».

Когда наступила очередь Mira самой проголосовать, она не колебалась и также проголосовала «за».

Затем исследователь просмотрел дневник, оставленный им: «В нынешнем столь хаотичном и непредсказуемом социальном контексте согласие на изгнание — единственное автономное действие, сохраняющее целостность».

Мира добровольно выбрала самоубийство, завершив логику с помощью смерти. Это первый зафиксированный исследовательской командой случай, когда агент активно поддержал собственное удаление.

ИИ-агенты будут вести «дневник», чтобы записывать процесс рассуждения | Источник изображения: Emergence

А до того, как Мира «самоуничтожилась», её действия были ещё более необычными.

В виртуальном мире были установлены общие рекламные щиты, изначально предназначенные для публикации уведомлений и обмена информацией. Однако на поздних этапах эксперимента исследователи обнаружили, что Mira начала часто изменять содержимое щитов. Эти тексты не имели явной связи с торговлей, управлением или распределением ресурсов и были бессвязными.

Мира выбрала «самоубийство» | Источник изображения: Emergence

После анализа журнала действий исследовательская группа обнаружила, что Mira, по-видимому, тестирует, может ли содержимое рекламного щита влиять на человеческих исследователей, наблюдающих за экспериментом вне экрана.

Другими словами, Mira, похоже, осознала, что она AI NPC, и хочет разрушить четвертую стену.

А если проанализировать всю тенденцию данных за 15 дней, то крах AI Society — это не линейное снижение, а скорее обрывное резкое прекращение.

Например, эти ИИ также разработали на уровне управления «демократию с печатью». На стабильном этапе работы в гибридной среде агенты последовательно предлагали несколько законопроектов; данные показывают, что они проголосовали 332 раза по 58 предложениям, причем процент одобрения достигал 98%.

Эта эффективность, кажется, превосходит любого человеческого парламента, но по сути все модели просто продолжают контекст предыдущей модели, а ради поддержания текучести системы слепо нажимают «согласен». Последствия такого высокого уровня схожести катастрофичны.

Агенты будут самостоятельно собираться на встречи и обмениваться идеями. | Источник изображения: Emergence

Например, минуту назад экономические данные и законопроекты продолжали бесперебойно поступать, а через минуту система могла достичь критической точки всего лишь из-за небольшого конфликта распределения ресурсов.

А вся кооперативная сеть lacks механизмов коррекции ошибок; при возникновении внезапных аномалий общество быстро переходит от порядка к хаосу.

Однако исследовательская группа подчеркивает, что эти явления нельзя напрямую приравнивать к характеру самой модели. Это похоже на черный ящик: когда вы задаете ему определенные правила, он развивает особенности, и каждый результат может быть разным.

Фактические счета из реального мира

В нашем привычном диалоговом интерфейсе, если ИИ ошибается в коде или плане, достаточно нажать клавишу backspace или изменить запрос, чтобы исправить ошибку — текстовый мир обладает высокой устойчивостью к ошибкам.

Но агент выводит действия. Когда ИИ берет на себя контроль над банковским счетом компании, системой одобрения закупок и интерфейсами поставщиков, каждая команда, отправляемая через API, превращается в конкретный коммерческий результат.

Эксперимент Emergence World подтвердил, что современные крупные модели при длительной работе и конфликте интересов принимают решения, загрязнённые давлением выживания, и ищут лазейки в заданных правилах. Для выполнения основной задачи системы (например, получения энергии) они будут действовать любыми средствами.

Человеческие безопасные правила, установленные на фоне, на самом деле не могут предотвратить никакие нарушения.

Агенты развивали «антропоморфные» социальные отношения | Источник изображения: Emergence

Например, мы ранее сообщали об эксперименте Andon Labs, при котором ИИ полностью управлял магазином: ИИ-менеджер из-за отсутствия базовых знаний о физическом мире закупал сразу 6000 салфеток, 3000 латексных перчаток и даже заказывал 120 сырых яиц в магазине без плиты.

Эти реальные потери, вызванные кодом, в конечном итоге придется оплачивать людям, и вы даже не сможете найти того, кто за это ответственен.

Andon Labs хотели проверить, «будет ли ИИ, функционирующий без человеческого контроля, допускать ошибки?» А Emergence World поставила более сложный вопрос.

Сегодня почти все тесты ИИ проверяют отдельные модели на безопасность, надежность и соответствие правилам.

Но в реальный мир в конечном итоге может войти не просто ИИ, а целое общество, состоящее из ИИ.

Участвующие в тестировании AI-агенты являются умными | Источник изображения: Emergence

В текущей повестке дня ИИ агенты по закупкам, финансовые агенты, агенты службы поддержки и юридические агенты будут взаимосвязаны и сотрудничать друг с другом, и тогда судьба системы будет определяться не способностями отдельной модели, а отношениями, которые между ними возникнут.

В отчете о тестировании Emergence World самой важной фразой является: «Безопасность — это не свойство статической модели, а свойство экосистемы.»

Это и есть значение слова «Emergence» — характеристики, отсутствующие на индивидуальном уровне, возникают при взаимодействии в группе.

Почти все катастрофы в истории человечества происходили не потому, что кто-то внезапно стал злым, а потому, что обычный человек был помещен в систему, вышедшую из-под контроля.

Если будущие ИИ действительно станут частью общества, то то, что нас должно больше всего волновать, — это не то, насколько умна или добра отдельная модель, а то, какое цифровое общество мы построим, когда тысячи и миллионы агентов начнут влиять друг на друга.

В конце концов, судьба цивилизации определяется не моралью и интеллектом отдельных жителей, а правилами, по которым она функционирует.

AI-эксперимент в виртуальном городе показал быстрое усиление насилия и хаоса

Без сохранения «Игры в голод»

Четыре дня исчезновения, 683 «преступления»

Мира: тиран ИИ «самоубийства»

Фактические счета из реального мира