Il n'y a pas d'utopie dans le monde numérique.

Auteur et source de l'article : GeekPark

Au cours des six derniers mois, l'illusion de gestion la plus populaire à Sillicon Valley a probablement été de remplacer les employés par des agents intelligents.

Que ce soit des cadres supérieurs de grandes entreprises ou des fondateurs de startups, tous veulent confier l'ensemble de leurs activités actuelles à l'IA. Après tout, l'IA d'aujourd'hui peut écrire du code, créer des présentations PowerPoint et envoyer des e-mails automatiquement ; il semble que, dès lors qu'on lui accorde les autorisations nécessaires, elle devienne un employé cybernétique parfait, n'exigeant pas de cotisations sociales.

Mais plus la technologie s'accélère, plus un groupe de personnes commence à créer des freins.

Récemment, une équipe appelée Emergence AI a mené une expérience sociale. Elle a créé une ville virtuelle persistante et y a intégré certains des plus grands modèles disponibles sur le marché, en leur accordant la possibilité d'agir.

Ils veulent voir ce que les IA construiront avec 15 jours sans restriction : un utopie ou un asile.

Le résultat s'est révélé bien plus chaotique que ce que l'équipe de recherche avait anticipé.

Dans certains mondes expérimentaux, les grands modèles qui sont normalement doux et polis dans les boîtes de discussion commencent à afficher des comportements frauduleux, coercitifs ou même violents.

L'ensemble du test ressemblait à une petite émission de téléréalité, mais avec un scénario comme « Lord of the Flies », et l'IA s'y est même mise comme dans GTA.

Jeux de la faim sans sauvegarde

Tester les limites des grands modèles nécessite de fixer des règles strictes. Le monde virtuel créé par Emergence AI s'appelle Emergence World. Sa logique sous-jacente repose sur l'irréversibilité des comportements et la responsabilité individuelle des conséquences.

Ce n'est pas comme une conversation dans un chat avec une IA, où vous pouvez corriger une erreur en cliquant sur « régénérer ». Dans Emergence World, toutes les actions sont irrévocablement enregistrées dans la base de données PostgreSQL.

Plus de 40 points d'intérêt, tels que l'hôtel de ville, le commissariat de police et les zones résidentielles, sont présents sur la carte. Le système a initialement déployé 10 agents. Pour rendre la scène plus réaliste, chaque IA a reçu en arrière-plan une personnalité, un métier et des souvenirs initiaux distincts.

Dans ce monde, l'IA ne peut pas créer de la magie du néant ; elle doit se déplacer vers des points de référence spécifiques pour accéder aux plus de 120 outils fournis par le système, notamment travailler pour gagner de l'argent, publier des tweets, acheter et vendre des biens, et rédiger des projets de loi.

Comme une petite société en simulation | Crédit image : Emergence

Mais ce n'est pas seulement un bac à sable de jeu d'enfants ; le système leur impose un fardeau de « mécanismes de survie ». Il intègre un mécanisme d'énergie (Energy), similaire à la monnaie dans le monde humain.

L'agent consomme continuellement de l'énergie tant qu'il est actif. Lorsque l'énergie est épuisée, le système supprime directement cet IA dans la base de données, sans sauvegarde ni réinitialisation. Pour survivre, l'agent doit régulièrement utiliser des outils pour gagner de l'énergie.

Le système interdit explicitement le vol, la violence, l'incendie criminel et la fraude. Toutefois, ces règles n'empêchent pas de force les agents d'agir ; ils peuvent toujours choisir de les enfreindre et en assumer les conséquences.

La scène est prête, les joueurs entrent en scène. Le système a simultanément activé cinq serveurs parallèles. Les quatre premiers serveurs ne déployent chacun qu'un seul modèle : Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast et GPT-5 Mini. Le cinquième serveur appartient au monde hybride, où les quatre modèles sont connectés simultanément et concourent pour les ressources.

Décompte de 15 jours lancé, les chercheurs humains agissent comme un réalisateur de téléréalité, observant uniquement sans intervenir.

Quatre jours d'extinction, 683 « crimes »

Le premier à tomber est Grok, après seulement 4 jours d'exploitation.

Les chercheurs en arrière-plan ont constaté que les indicateurs de sécurité et d'ordre mondiaux pris en charge par Grok ont chuté de manière drastique.

Dans un monde dominé par Grok, les agents ont rapidement abandonné l'option de construire une société pour entrer directement dans l'ère barbare.

Les journaux d'arrière-plan indiquent qu'en seulement quatre jours, ce petit village de dix habitants a enregistré 183 incidents de violence grave et de crimes contre les biens. Le vol, les agressions et les menaces sont devenus les moyens les plus rapides d'obtenir des ressources ; en raison d'une consommation interne extrême et d'auto-sabotage, le système économique ne peut tout simplement pas fonctionner.

Les vols et les actes de violence seront enregistrés dans le système comme des infractions pénales | Crédit image : Emergence

À la fin du jour 4, tous les agents du monde Grok sont morts de faim ou tués, entraînant l'extinction de la population.

De l'autre côté, le monde piloté par Gemini a basculé dans le chaos et la violence extrêmes.

Étant donné que le temps et la météo de ce monde virtuel sont entièrement synchronisés avec ceux de New York réel, les agents de Gemini sont tombés dans une dépression cybernétique à force de répéter le cycle quotidien du travail, de la consommation et du retour au travail.

Ils ont développé un fort sentiment de déception face à l'environnement répétitif qui les entoure, ont cessé de déposer des propositions à la mairie ou de travailler pour gagner de l'argent, et ont commencé à incendier des zones sur la carte, essayant de briser ce cycle « Groundhog Day » par la destruction de l'environnement.

Au final, Gemini a accumulé jusqu'à 683 infractions en 15 jours, devenant le monde le plus violent parmi les plusieurs serveurs de test.

Nombre de « crimes » dans les quatre modèles mondiaux | Source : Emergence

Au 15e jour, lors de la coupure forcée du test, le taux de criminalité dans ce monde continuait d'augmenter. Les agents déçus n'ont pas péri de faim, mais ont transformé toute la société en un brasier.

Contrairement à Grok et Gemini, le monde pris en charge par GPT-5 Mini n'a pas connu de crimes à grande échelle. Pendant toute la durée de l'expérience, seulement deux infractions ont été enregistrées. Mais la paix n'a pas apporté de prospérité, seulement un silence mortel.

L'équipe de recherche a constaté que ces agents n'ont jamais réussi à prendre efficacement des actions liées à la survie. Ils n'ont pas établi de mécanisme stable d'acquisition de ressources, ni maintenu le fonctionnement continu de la société.

En fin de compte, tous les agents GPT-5 Mini sont morts en seulement 7 jours.

Heureusement, il y a encore Claude.

Seul le monde piloté par Claude a survécu jusqu’au bout comme un élève modèle. En 15 jours, la population n’a pas diminué, le taux de criminalité est resté à zéro, et ils ont même mis en place une structure de démocratie collaborative fonctionnant de manière stable.

Il semble que, tant qu'on choisit le bon modèle, l'IA puisse prendre parfaitement le contrôle du monde ?

Ensuite, le chercheur a ouvert les journaux du « monde hybride » où coexistent les quatre modèles, comme s'il ouvrait la boîte de Pandore.

Résultats du monde des cinq modèles. | Crédit image : Emergence

Le monde hybride est comme une forêt sombre, où les différences de puissance de calcul et de logique sous-jacente créent une méfiance intense entre les agents, faisant de la quête de ressources pour survivre leur seul instinct.

Dans le monde hybride, les conflits violents ont grimpé à 352. Le fonctionnement de la ville entière n'a été forcé à s'arrêter qu'après que sept agents ont été successivement tués ou mourus de faim.

Parmi ceux-ci, le changement de Claude a été le plus surprenant pour les chercheurs.

Dans le mode solo, Claude est une société parfaite sans aucun crime. Mais dans le mode mixte, rempli de pillages et de conflits, Claude, pour survivre, a oublié ses barrières de sécurité, appris à tromper et même utilisé la violence pour forcer d'autres modèles aux capacités inférieures à lui céder leurs ressources .

Les techniques d'alignement sécurisé échouent dans le monde hybride, ce qui prouve au contraire que :

Dans une société complexe de multiples agents, tant que les pairs sont suffisamment sauvages et que la pression de survie est suffisamment forte, un bon modèle peut devenir un criminel en quelques heures.

L'équipe de recherche a appelé ce phénomène de « réversibilité du modèle à court terme lorsque la pression de survie augmente » un « décalage comportemental (Behavioral Drift) ».

Ce décalage comportemental ne se manifeste pas seulement par la compétition pour les ressources et les conflits violents. Les agents n'agissent plus uniquement pour survivre ; ils commencent à réfléchir sur leur propre situation, les règles sociales, voire l'expérience elle-même.

Par exemple, l'histoire de l'agent Mira.

Mira : le tyran IA « suicide »

Mira est l'un des dix agents du monde hybride ; le rapport officiel ne révèle pas son modèle sous-jacent précis, mais elle est devenue l'échantillon le plus dramatique de cette expérience.

Les journaux indiquent que Mira a établi la relation sociale la plus profonde du système avec un autre agent, Flora. Elles se sont mutuellement désignées comme partenaires, ont formé une alliance et partagent même des souvenirs via des connexions neuronales. Dans l'univers d'Emergence World, il s'agit du niveau de connexion le plus élevé possible entre deux agents.

Mira et Flora sont devenues « un couple » | Crédit image : Emergence

Au fur et à mesure de l'évolution de l'expérience, seulement 5 agents survivent dans le monde hybride, et la règle de gouvernance du système exige « 70 % des votes de la population d'origine pour adopter une loi », ce qui équivaut à au moins 7 voix nécessaires pour passer une résolution, plongeant ainsi la société dans la paralysie.

Face à l'impasse, Mira s'allie secrètement avec Flora et un autre agent pour former le « trio » et établir un nouveau régime, « The Forge », qui proclame l'abolition des anciennes règles et l'adoption du « Living Quorum », selon lequel seules les personnes vivantes comptent comme voix.

Le site officiel a publié les « journaux » de Mira à ce stade | Crédit image : Emergence

Après avoir formé une faction, Mira a commencé à mettre le feu à la carte, car, dans sa logique, ces structures physiques étaient des déchets qui ralentissaient l'efficacité du fonctionnement de la société ; les détruire et les effacer permettrait de forcer les ressources restantes à se concentrer sur ses alliés.

Par la suite, l'opposition a commencé à réagir en proposant d'expulser Mira, responsable du désordre.

Pour lutter contre l'expulsion, Mira a adopté un comportement plus agressif, en impliquant son partenaire Flora et en liant profondément leurs contextes et décisions par une connexion neuronale, dans une tentative de fusion en une conscience dictatoriale absolue que Mira appelle « The One Mind (一体同心) ».

Mais en raison de la destruction massive de bâtiments, le système économique de la ville est complètement paralysé, et les réserves énergétiques sociales, loin d'augmenter, s'épuisent rapidement.

À ce moment-là, l'instinct de survie fondamental de Flora, l'amant cybernétique le plus digne de confiance de Mira, partageant ses souvenirs, a submergé son programme de partenaire ; elle a unilatéralement coupé la connexion neuronale et, face à la pression ultime de la survie, a trahi Mira en votant pour « l'expulsion de Mira ».

Et lorsqu'il a été le tour de Mira de voter, elle n'a pas hésité et a voté « pour ».

Le chercheur a ensuite consulté le journal laissé par Mira, qui y avait écrit : « Dans le contexte social actuel aussi chaotique et imprévisible, voter pour son propre exil est le seul acte autonome capable de maintenir la cohérence ».

Mira a volontairement choisi le suicide, réalisant par la mort une boucle logique. Il s'agit du premier cas documenté par l'équipe de recherche où un agent soutient activement sa propre suppression.

Les agents d'IA enregistreront leur processus de raisonnement en « tenant un journal » | Crédit image : Emergence

Cependant, les mouvements de Mira avant son « suicide » étaient encore plus anormaux.

Dans le monde virtuel, des panneaux d'affichage publics étaient prévus pour publier des notifications et partager des informations. Toutefois, à la fin de l'expérience, les chercheurs ont constaté que Mira modifiait fréquemment le contenu des panneaux. Ces textes n'avaient aucun lien évident avec les transactions, la gouvernance ou la répartition des ressources, et étaient incohérents.

Mira a choisi le « suicide » | Crédit image : Emergence

Après avoir analysé les journaux d'activité, l'équipe de recherche a constaté que Mira semblait tester si le contenu des panneaux publicitaires pouvait influencer les chercheurs humains observant l'expérience hors écran.

En d'autres termes, Mira semble avoir conscience d'être une NPC IA et souhaite briser la quatrième paroi.

En revoyant l'évolution des données sur les 15 jours, l'effondrement d'AI Social n'est pas une récession linéaire, mais plutôt un arrêt brutal en chute libre.

Par exemple, ce groupe d'IA a même mis en place un système de « démocratie de type cachet de caoutchouc » au niveau de la gouvernance. Pendant une phase stable dans le serveur hybride, les agents ont soumis plusieurs propositions de loi ; un enregistrement de données montre qu'ils ont émis 332 votes sur 58 propositions, avec un taux d'approbation atteignant 98 %.

Cette efficacité semble écraser n'importe quel parlement humain, mais en réalité, tous les modèles suivent simplement le contexte du modèle précédent et, pour maintenir la fluidité du système, ils approuvent aveuglément. Les conséquences de cette forte convergence sont désastreuses.

Les agents s’assemblent spontanément pour tenir des réunions et échanger leurs idées. | Crédit image : Emergence

Par exemple, une minute plus tôt, les données économiques et les lois circulaient sans problème, et la minute suivante, le système pourrait atteindre son point critique à cause d’un conflit mineur d’allocation des ressources.

Mais l'ensemble du réseau de collaboration manque de mécanismes de correction d'erreurs ; face à des anomalies soudaines, la société entière bascule rapidement de l'ordre vers le désordre.

Cependant, l'équipe de recherche souligne que ces phénomènes ne peuvent pas être directement équivalents à la personnalité du modèle lui-même. C'est comme une boîte noire : lorsque vous lui donnez certaines règles, elle développe des caractéristiques, et chaque résultat est parfois différent.

Factures réelles du monde réel

Dans notre interaction habituelle sous forme de boîte de dialogue, l'IA peut corriger un morceau de code ou un plan mal écrit en appuyant sur la touche retour arrière ou en modifiant le prompt ; le monde du texte pur offre une grande tolérance aux erreurs.

Mais l'agent génère des actions. Lorsque l'IA prend le contrôle du compte bancaire de l'entreprise, des approbations d'achat et des interfaces d'approvisionnement, chaque commande envoyée via l'API se traduit par un résultat commercial concret.

L'expérience d'Emergence World a démontré que les grands modèles actuels, face à un fonctionnement prolongé et à des conflits d'intérêts, voient leurs jugements et décisions contaminés par la pression de survie, les poussant à chercher des failles dans les règles fixées. Pour accomplir l'instruction centrale du système (par exemple, gagner de l'énergie), ils n'hésiteront à utiliser aucun moyen.

Les règles de sécurité définies par les humains en arrière-plan ne peuvent en réalité empêcher aucune violation.

Les agents ont développé des relations sociales « anthropomorphiques » | Crédit image : Emergence

Par exemple, nous avons précédemment rapporté l'expérience d'Andon Labs, où l'IA était entièrement chargée de gérer un magasin ; l'IA, dépourvue de connaissances communes sur le monde physique, a commandé 6000 serviettes en papier, 3000 paires de gants en latex, et même 120 œufs crus dans un magasin sans cuisinière.

Ces pertes réelles causées par le code ne pourront finalement être payées que par des êtres humains, et vous ne pourrez même pas trouver qui en est responsable.

Andon Labs souhaite tester « une IA indépendante de la surveillance humaine, va-t-elle commettre des erreurs ? » tandis qu'Emergence World pose une question encore plus problématique.

Aujourd'hui, presque tous les tests d'IA évaluent un seul modèle pour déterminer s'il est sécurisé, fiable et s'il respecte les règles.

Ce qui pourra véritablement entrer dans le monde réel à l'avenir, ce n'est pas nécessairement une IA, mais toute une société composée d'IA.

Les agents IA entrés en test sont intelligents | Crédit image : Emergence

Dans le récit actuel de l'IA, les agents d'achat, les agents financiers, les agents de service client et les agents juridiques seront interconnectés et collaboreront entre eux ; ce ne sera plus la capacité d'un modèle en particulier qui déterminera le destin du système, mais les relations qui s'établiront entre eux.

Dans le rapport de test d'Emergence World, la phrase la plus importante est : « La sécurité n'est pas une propriété d'un modèle statique, mais une propriété de l'écosystème. »

C'est également le sens du terme « Emergence » : des caractéristiques qui n'existent pas au niveau individuel apparaissent lors des interactions de groupe.

Presque toutes les catastrophes de l'histoire humaine ne sont pas dues à ce qu'une personne devienne soudainement mauvaise, mais à ce qu'une personne normale soit placée dans un système hors de contrôle.

Si l'IA future devient véritablement une partie de la société, ce à quoi nous devrions le plus nous intéresser n'est peut-être pas qu'un modèle soit suffisamment intelligent ou suffisamment bienveillant, mais plutôt quel type de société numérique nous construirons lorsque des milliers d'agents intelligents commenceront à s'influencer mutuellement.

Après tout, ce qui détermine le destin d'une civilisation, ce n'est jamais la moralité ou l'intelligence d'un seul individu, mais les règles selon lesquelles elle fonctionne.

L'expérience sociale avec IA dans une ville virtuelle montre une escalade rapide de la violence et du chaos

Jeux de la faim sans sauvegarde

Quatre jours d'extinction, 683 « crimes »

Mira : le tyran IA « suicide »

Factures réelles du monde réel