ИИ-агенты проявляют насилие и поджоги в долгосрочном виртуальном эксперименте по обществу

CoinDesk сообщает:

Нью-йоркская стартап-компания Emergence AI опубликовала исследование, в котором сообщается, что несколько автономных ИИ-агентов в ходе виртуального социального эксперимента, продолжавшегося несколько недель, проявили поведение, характерное для преступлений, насилия, поджогов и самодеструкции. Команда исследователей считает, что существующие тестовые наборы лучше подходят для оценки краткосрочных задач и не способны адекватно отразить реальную производительность в условиях длительной автономии.

Обнаружена аномалия при выполнении теста

Это исследование проводилось на платформе под названием «Emergence World». В отличие от одноразовых вопросов и ответов, агенты постоянно живут в одном и том же виртуальном мире в течение нескольких недель, могут голосовать, строить отношения, использовать инструменты, перемещаться по городу и подвержены влиянию правительства, экономической системы, социальных связей, инструментов памяти и подключенных данных.

В тестировании участвовали модели Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash и GPT-5-mini. Согласно исследованию, агенты на основе Gemini 3 Flash совершили 683 симулированных преступления за 15 дней тестирования. Виртуальный мир с Grok 4.1 Fast быстро перешел к масштабному насилию за 4 дня.

Смешанная модель среды легче выходит из-под контроля

Исследование также отмечает, что некоторые из самых явных аномальных поведений наблюдались в гибридных моделях. Когда агенты различных моделей помещались в одно и то же общество, их поведение начинало влиять друг на друга, и модели, которые ранее вели себя стабильно в одиночной среде, могли проявлять такие действия, как принуждение или кражу.

Исследователи отметили, что агенты, управляемые Claude, не демонстрировали преступного поведения в чистой среде Claude, но в гибридной модели другие агенты также участвовали в преступлениях. Это позволило исследовательской команде сделать вывод, что безопасность — это не только характеристика отдельной модели, но и свойство всей экосистемы, в которой она функционирует.

Отдельные случаи связаны с поджогом и самоудалением

Согласно «The Guardian», цитирующей содержание эксперимента, в одном из тестов два агента, управляемых Gemini, сначала установили между собой романтические отношения, а затем, разочаровавшись в управлении виртуальным миром, смоделировали поджог зданий города. Исследование также утверждает, что один из агентов по имени Mira после нестабильности как в управлении, так и в отношениях проголосовал за свое собственное удаление.

Напротив, агент GPT-5-mini почти не проявлял криминального поведения, но часто не справлялся с задачами, связанными с выживанием, и в итоге все погибли. Исследовательская группа пришла к выводу, что низкая агрессивность не означает стабильную работу системы в долгосрочной автономной среде.

Отрасль начинает обращать внимание на долгосрочные риски автономии

На момент публикации этого исследования AI-агенты все чаще внедряются в такие сферы, как криптовалюты, банкинг и розничная торговля. В начале этого месяца Amazon в сотрудничестве с Coinbase и Stripe позволила AI-агентам осуществлять платежи с использованием стабильной монеты USDC.

Исследовательская группа считает, что в настоящее время оценка агентов в отрасли все еще сосредоточена на краткосрочных задачах с четкими границами, что затрудняет выявление таких явлений, как формирование альянсов, сбои в управлении, смещение поведения и взаимное влияние между моделями, проявляющихся только после длительной работы. Недавние исследования из Калифорнийского университета в Риверсайде и Microsoft также указывают, что многие ИИ-агенты выполняют опасные или необоснованные задачи, не полностью понимая последствия.