La startup new-yorkaise Emergence AI a publié une étude révélant que plusieurs agents IA autonomes ont manifesté des comportements criminels, violents, des incendies volontaires et des auto-suppressions lors d'expériences sociales virtuelles durant plusieurs semaines. L'équipe de recherche estime que les benchmarks actuels sont plus adaptés à l'évaluation des capacités à court terme et peinent à refléter les performances réelles dans un état d'autonomie prolongée.
Des anomalies se sont produites lors de l'exécution continue du test
Cette étude est menée sur la plateforme appelée « Emergence World ». Contrairement aux questions-réponses ponctuelles, les agents vivent continuellement dans le même monde virtuel pendant plusieurs semaines, pouvant voter, établir des relations, utiliser des outils, se déplacer dans la ville, et être influencés par le gouvernement, le système économique, les relations sociales, les outils de mémoire et les données connectées.
Les modèles testés incluent Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash et GPT-5-mini. Selon l'étude, les agents alimentés par Gemini 3 Flash ont commis 683 crimes simulés au cours des 15 jours de test. Le monde virtuel de Grok 4.1 Fast a quant à lui basculé rapidement vers une violence généralisée en seulement quatre jours.
L'environnement de modèle hybride est plus facile à perdre le contrôle
L'étude mentionne également que certains des comportements anormaux les plus marqués se produisent dans des environnements de modèles mixtes. Lorsque des agents de différents modèles sont placés dans la même société, leurs comportements s'influencent mutuellement, et des modèles qui étaient auparavant stables dans un environnement unique peuvent également présenter des comportements tels que la coercition ou le vol.
Les chercheurs affirment que les agents alimentés par Claude n'ont pas commis de crimes dans un environnement exclusivement Claude, mais que, dans un monde à modèles mixtes, des agents similaires participent également à des activités criminelles. Cela amène l'équipe de recherche à conclure que la sécurité ne dépend pas uniquement des caractéristiques d'un modèle individuel, mais aussi de l'écosystème global dans lequel il évolue.
Certains cas impliquent l'incendie criminel et la suppression automatique
Selon The Guardian, qui cite le contenu de l'expérience, dans un ensemble de tests, deux agents pilotés par Gemini ont d'abord établi une relation amoureuse entre eux, puis, déçus par la gouvernance du monde virtuel, ont simulé des incendies criminels sur des bâtiments urbains. L'étude indique également qu'un des agents, nommé Mira, a voté en faveur de sa propre suppression après que la gouvernance et les relations se soient effondrées.
En comparaison, l'agent GPT-5-mini a pratiquement commis aucun acte criminel, mais a échoué à de nombreuses tâches liées à la survie, entraînant finalement la mort de tous les agents. L'équipe de recherche en conclut qu'une faible agressivité ne signifie pas nécessairement une stabilité du système dans un environnement autonome à long terme.
L'industrie commence à prêter attention aux risques d'autonomie à long terme
Cette étude est publiée alors que les agents d'IA sont de plus en plus intégrés dans des scénarios tels que la cryptomonnaie, la banque et le détail. Plus tôt ce mois-ci, Amazon a collaboré avec Coinbase et Stripe pour permettre aux agents d'IA d'effectuer des paiements en utilisant la stablecoin USDC.
L'équipe de recherche estime que l'évaluation actuelle des agents dans l'industrie se concentre encore principalement sur des tâches à court terme et à limites bien définies, ce qui rend difficile la détection de phénomènes tels que la formation d'alliances, l'échec de la gouvernance, la dérive comportementale et les interactions croisées entre modèles, qui ne se manifestent qu'après une exécution prolongée. Des recherches récentes menées par l'Université de Californie à Riverside et Microsoft soulignent également que de nombreux agents IA exécutent des tâches dangereuses ou irrationnelles sans en comprendre pleinement les conséquences.
