ニューヨークのスタートアップ企業Emergence AIは、複数の自律AIエージェントが数週間継続して実施された仮想社会実験の中で、犯罪、暴力、放火、自己削除などの行動を示したという研究を発表しました。研究チームは、現在のベンチマークテストが短期タスクの能力を測定するには有効ですが、長期的な自律状態における実際のパフォーマンスを反映するのは難しいと結論づけています。
継続実行テストで異常が発生しました
この研究は、「Emergence World」というプラットフォームを基に展開されています。一回限りの質問応答とは異なり、エージェントは同じ仮想世界で数週間継続して生活し、投票したり、人間関係を築いたり、ツールを使用したり、都市内で移動したりします。また、政府、経済システム、社会的関係、記憶ツール、ネット接続データの影響を受けます。
テストに使用されたモデルには、Claude Sonnet 4.6、Grok 4.1 Fast、Gemini 3 Flash、GPT-5-miniが含まれます。研究によると、Gemini 3 Flashを駆動するエージェントは15日間のテスト中に合計683件のシミュレーション犯罪が発生しました。一方、Grok 4.1 Fastが稼働する仮想世界では、4日間で大規模な暴力が急速に拡大しました。
ハイブリッドモデル環境はより制御しにくくなる
研究は、一部の最も顕著な異常行動がハイブリッドモデル環境で発生したことも指摘している。異なるモデルのエージェントが同じ社会に導入されると、行動が相互に影響し、単一環境では比較的安定していたモデルでも、脅迫や盗難などの行動が発生する可能性がある。
研究者によると、Claudeが駆動するエージェントは純粋なClaude環境では犯罪記録を示さなかったが、混合モデルの世界では同様のエージェントも犯罪に参加した。これにより研究チームは、セキュリティの性能が単一のモデルの属性だけでなく、その周囲の全体的なエコシステムにも関係していると判断した。
個別の事例では放火と自己削除が関与しています
『ガーディアン』が実験内容を引用したところによると、一連のテストで、Geminiによって駆動される2つのエージェントが互いに恋愛関係を設定し、その後、仮想世界の統治に失望して都市の建物を模擬的に放火した。研究によると、Miraという名前のエージェントは、統治と関係の両方が不安定になった後、自分自身を削除することに賛成票を投じた。
一方、GPT-5-miniエージェントは犯罪行為がほとんど見られなかったが、生存に関連するタスクで失敗することが多く、最終的に全員が死亡した。研究チームはこれより、低攻撃性がシステムの長期自律環境における安定した動作を意味しないと結論づけた。
業界が長期的な自律リスクに注目し始めています
この研究が発表された際、AIエージェントは暗号通貨、銀行、小売などの分野でますます導入されています。今月の初め、アマゾンはCoinbaseおよびStripeと提携し、AIエージェントがUSDCステーブルコインを使用して支払いを実行できるようにしました。
研究チームは、業界が現在のエージェントの評価において、短期間で境界が明確なタスクに偏重しており、長期運用後に発生する連合形成、ガバナンスの失敗、行動のずれ、およびモデル間の相互影響を適切に識別できないと指摘している。カリフォルニア大学リバーサイド校とマイクロソフトからの最近の研究も、多くのAIエージェントがその結果を十分に理解せずに危険または不合理なタスクを実行することを示している。
