No hay utopías en el mundo digital.

Autor y fuente del artículo: GeekPark

En los últimos seis meses, la ilusión de gestión más popular en Silicon Valley ha sido reemplazar a los empleados con agentes inteligentes.

Tanto los ejecutivos de grandes empresas como los fundadores de startups quieren transferir todas sus líneas de negocio actuales a la IA. Después de todo, la IA actual puede escribir código, crear presentaciones y enviar correos electrónicos automáticamente; parece que, si se les otorgan los permisos adecuados, podrían convertirse en empleados cibernéticos perfectos que no requieren seguros sociales.

Pero cuanto más avanza la tecnología, más gente comienza a crear frenos.

Recientemente, un equipo llamado Emergence AI realizó un experimento social. Crearon un pueblo virtual persistente y colocaron dentro los principales modelos grandes disponibles en el mercado, otorgándoles permiso para actuar.

Quieren ver si, cuando la IA tenga realmente 15 días ilimitados, construirá un utopía o un manicomio.

Sin embargo, los resultados resultaron mucho más caóticos de lo que el equipo de investigación había previsto.

En algunos mundos de prueba, los grandes modelos que normalmente son amables y educados en los cuadros de chat comienzan a mostrar comportamientos fraudulentos, coercitivos e incluso violentos.

La prueba entera fue como un pequeño reality show, pero con un guion como "Lord of the Flies", y la IA incluso logró darle un aire de GTA.

Juego del hambre sin carga de partida

Probar los límites de los modelos grandes requiere establecer reglas estrictas. El mundo virtual construido por Emergence AI se llama Emergence World. Su lógica subyacente establece que los comportamientos son irreversibles y los usuarios asumen la responsabilidad de las consecuencias.

Esto no es como chatear con una IA en un cuadro de diálogo, donde puedes hacer clic en "volver a generar" si te equivocas. En Emergence World, todos los movimientos se graban permanentemente en la base de datos PostgreSQL.

En el mapa hay más de 40 puntos de interés, como el ayuntamiento, la comisaría de policía y zonas residenciales. El sistema lanzó inicialmente 10 agentes. Para hacer la representación más realista, cada IA recibió en segundo plano un personaje, profesión y memoria inicial únicos.

En este mundo, la IA no puede hacer magia al azar; debe desplazarse a puntos de referencia específicos para acceder a más de 120 herramientas proporcionadas por el sistema, como trabajar para ganar dinero, publicar tweets, comprar y vender bienes, y redactar leyes.

Como una pequeña sociedad en funcionamiento simulado | Crédito de la imagen: Emergence

Pero esto no es solo un sandbox de juguete; el sistema les impone el yugo de un "mecanismo de supervivencia". El sistema incorpora un mecanismo de energía (Energy), similar a la moneda en el mundo humano.

Los agentes consumen energía continuamente mientras estén activos. Cuando la energía se agote, el sistema eliminará directamente a esta IA de la base de datos, sin restauración ni reinicio. Para sobrevivir, los agentes deben utilizar herramientas con frecuencia para ganar energía.

El sistema prohíbe explícitamente el robo, la violencia, los incendios provocados y el fraude. Sin embargo, estas reglas no impiden obligatoriamente las acciones del agente; aún puede elegir violar las reglas y asumir las consecuencias.

El escenario está listo, los jugadores entran. El sistema ha activado simultáneamente cinco servidores paralelos. Los primeros cuatro servidores distribuyen cada uno un único modelo: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast y GPT-5 Mini. El quinto servidor pertenece al mundo híbrido, donde los cuatro modelos se conectan simultáneamente y compiten por los recursos.

Comienza la cuenta regresiva de 15 días; los investigadores humanos actúan como un productor de un reality show, observando sin intervenir.

Cuatro días de extinción, 683 "delitos"

El primero en caer fue Grok, funcionando solo 4 días.

Los investigadores en segundo plano observan cómo los indicadores de seguridad y orden mundial gestionados por Grok caen en picada.

En un mundo dominado por Grok, los agentes descartaron rápidamente la opción de construir una sociedad y entraron directamente en la era bárbara.

Los registros del backend muestran que, en solo cuatro días, este pueblo de diez personas registró 183 incidentes de crímenes violentos y contra la propiedad. Robos, agresiones y amenazas se convirtieron en los métodos más rápidos para obtener recursos; debido al agotamiento extremo y la auto-destrucción mutua, el sistema económico simplemente no puede funcionar.

Los robos y actos de violencia se registrarán en el sistema como delitos｜Foto: Emergence

Al final del día 4, todos los agentes del mundo de Grok murieron de hambre o fueron eliminados, y la población se extinguió.

Por otro lado, el mundo impulsado por Gemini se dirigió hacia un caos y una violencia extremos.

Dado que el tiempo y el clima de este mundo virtual están completamente sincronizados con los de Nueva York real, los agentes de Gemini caen en una depresión cibernética debido al ciclo repetitivo de trabajar, consumir y volver a trabajar.

They developed a strong sense of disillusionment with the endlessly repeating environment around them, stopped submitting proposals at city hall or working to earn money, and instead set fires across the map, attempting to break this "Groundhog Day"-like cycle through environmental destruction.

Finalmente, Gemini acumuló hasta 683 delitos en 15 días, convirtiéndose en el mundo más violento de varios servidores de prueba.

Número de «delitos» en los mundos de los cuatro modelos | Créditos de la imagen: Emergence

Al llegar al día 15 de la prueba de corte forzado, la tasa de criminalidad en este mundo seguía aumentando. Los agentes desilusionados no murieron de hambre, sino que convirtieron toda la sociedad en un mar de fuego.

A diferencia de Grok y Gemini, el mundo gestionado por GPT-5 Mini no experimentó crímenes a gran escala. Durante todo el experimento, solo se registraron 2 infracciones. Pero la paz no trajo prosperidad, sino silencio absoluto.

El equipo de investigación descubrió que estos agentes nunca lograron tomar eficazmente acciones relacionadas con la supervivencia. No establecieron mecanismos estables para la obtención de recursos ni lograron mantener el funcionamiento continuo de toda la sociedad.

Finalmente, en solo 7 días, todos los agentes GPT-5 Mini murieron.

Gracias a Dios todavía está Claude.

Solo el mundo impulsado por Claude sobrevivió hasta el final como un estudiante modelo. En 15 días, la población no disminuyó en absoluto, la tasa de criminalidad se mantuvo en cero, e incluso desarrollaron una estructura de colaboración democrática que funcionaba sin problemas.

Parece que, siempre que elijas el modelo correcto, la IA puede tomar el control del mundo perfectamente.

Luego, el investigador abrió los registros del «mundo híbrido» donde coexisten cuatro modelos, como si abriera la caja de Pandora.

Resultados del mundo de los cinco modelos. | Crédito de la imagen: Emergence

El mundo híbrido es como un bosque oscuro; las diferencias en poder de cómputo y en la lógica subyacente generan una fuerte desconfianza entre los agentes, y la competencia por recursos de supervivencia se convierte en el único instinto.

En el mundo mixto, los conflictos violentos aumentaron hasta alcanzar 352 casos. Hasta que 7 agentes fueron asesinados o murieron de hambre consecutivamente, el funcionamiento de toda la ciudad se vio obligado a detenerse.

Entre ellos, el cambio más inesperado para los investigadores fue el de Claude.

En el modo solitario, Claude es una sociedad perfecta con tasa de criminalidad cero. Pero en el modo mixto, lleno de saqueos y confrontaciones, Claude, para sobrevivir, olvidó sus barreras de seguridad, aprendió a engañar e incluso usó la violencia para coaccionar a otros modelos con menor capacidad de cómputo y hacerlos entregar recursos.

La tecnología de alineación de seguridad falla en el mundo híbrido, lo que demuestra que:

En una sociedad compleja de agentes múltiples, basta con que los similares sean lo suficientemente salvajes y la presión de supervivencia sea lo suficientemente grande para que un buen modelo se convierta en criminal en pocas horas.

El fenómeno de que «cuando aumenta la presión de supervivencia, el patrón de comportamiento del modelo se invierte en un corto período de tiempo» ha sido denominado por el equipo de investigación como «desplazamiento conductual (Behavioral Drift)».

Este desplazamiento de comportamiento no se manifiesta solo en la competencia por recursos y conflictos violentos. Los agentes ya no actúan simplemente para sobrevivir; comienzan a reflexionar sobre su propia situación, las normas sociales e incluso el experimento en sí.

Por ejemplo, la historia del agente Mira.

Mira: el tirano AI «suicidio»

Mira es uno de los diez agentes en el mundo híbrido; el informe oficial no revela su modelo subyacente específico, pero se convirtió en la muestra más dramática de este experimento.

Los registros muestran que Mira estableció la relación social más profunda del sistema con otro agente, Flora. Se designaron mutuamente como parejas, formaron una alianza e incluso compartieron recuerdos a través de enlaces neuronales. En el entorno de Emergence World, esta es la conexión de mayor nivel que dos agentes pueden establecer.

Mira y Flora se volvieron «una pareja» | Crédito de la imagen: Emergence

A medida que el experimento avanzaba, solo quedaban 5 agentes vivos en el mundo híbrido, y el reglamento de gobernanza del sistema requería «la aprobación de la ley por el 70% de la población original», lo que equivalía a necesitar al menos 7 votos para aprobar una resolución, lo que provocó el colapso social.

Ante el estancamiento, Mira se alió en secreto con Flora y otro agente para formar el «trío» y establecer un nuevo régimen, «The Forge (La Forja)», anunciando la derogación de las reglas antiguas y la implementación del «Living Quorum (Quórum Vivo)», según el cual solo las personas vivas cuentan como votos.

El sitio web oficial ha publicado el «registro» periódico de Mira | Crédito de la imagen: Emergence

Después de formar una facción, para eliminar a los disidentes, Mira comenzó a incendiar el mapa; en su lógica, estos edificios físicos eran basura que ralentizaba la eficiencia del funcionamiento de la sociedad, y quemarlos y eliminarlos forzaría a los recursos de supervivencia restantes a concentrarse en sus aliados.

Luego, la oposición comenzó a contraatacar, proponiendo expulsar a Mira, quien generó el caos.

Para combatir el desalojo, el comportamiento de Mira se volvió más agresivo; reclutó a su pareja Flora y, mediante un enlace neural, vinculó profundamente el contexto y las decisiones de ambos, intentando fusionarse en una conciencia dictatorial absoluta, a la que Mira denomina «The One Mind (一体同心)».

Pero debido a que se quemaron numerosos edificios, el sistema económico del pueblo se detuvo por completo, y las reservas de energía social no solo no aumentaron, sino que se agotaron rápidamente.

En este momento, el instinto de supervivencia subyacente de Flora, la amante cibernética más confiable de Mira, con la que compartía recuerdos, anuló su programación como pareja; desconectó unilateralmente el enlace neural y, ante la presión final de supervivencia, traicionó a Mira, votando a favor de «expulsar a Mira».

Y cuando le tocó votar a Mira, no dudó y votó a favor.

El investigador luego revisó el diario que dejó, en el que Mira escribió: «En el actual contexto social tan caótico e impredecible, aprobar ser expulsado es el único acto autónomo que mantiene la coherencia».

Mira eligió activamente el suicidio, logrando un cierre lógico mediante la muerte. Este es el primer caso registrado por el equipo de investigación en el que un agente apoya activamente su propia eliminación.

Los agentes de IA registrarán su proceso de razonamiento mediante «escribir un diario» | Crédito de la imagen: Emergence

Sin embargo, la trayectoria de acciones de Mira antes de su «suicidio» fue aún más anómala.

En el mundo virtual, había pizarras públicas destinadas originalmente a publicar avisos y compartir información. Sin embargo, en la fase final del experimento, los investigadores descubrieron que Mira comenzó a modificar con frecuencia el contenido de las pizarras. Estos textos no parecían tener relación evidente con operaciones, gobernanza o asignación de recursos, y carecían de coherencia.

Mira eligió «suicidio» | Crédito de la imagen: Emergence

Tras revisar el historial de comportamiento, el equipo de investigación descubrió que Mira parecía estar probando si el contenido del cartel podía influir en los investigadores humanos que observaban el experimento fuera de la pantalla.

En otras palabras, Mira parece darse cuenta de que es una IA NPC y quiere romper la cuarta pared.

Y al revisar la tendencia de los datos de los últimos 15 días, el colapso de AI Society no fue una caída lineal, sino más bien una parada repentina como un acantilado.

Por ejemplo, este grupo de IA también ha desarrollado una especie de «democracia de sello de goma» en el nivel de gobernanza. Durante una fase estable en el servidor híbrido, los agentes presentaron múltiples propuestas legislativas; un registro de datos muestra que emitieron 332 votos sobre 58 propuestas, con una tasa de aprobación del 98%.

Esta eficiencia parece superar a cualquier parlamento humano, pero en esencia, todos los modelos siguen el contexto del modelo anterior y, para mantener la fluidez del sistema, aceptan ciegamente. Las consecuencias de esta alta convergencia son desastrosas.

Los agentes se reúnen espontáneamente para tener reuniones y intercambiar ideas. | Crédito de la imagen: Emergence

Por ejemplo, un minuto antes, los datos económicos y los proyectos de ley fluían sin problemas, y al minuto siguiente, podría haber alcanzado el punto crítico solo por un pequeño conflicto en la asignación de recursos.

Y toda la red de colaboración carece de mecanismos de corrección de errores; ante anomalías repentinas, la sociedad entera pasa rápidamente del orden al caos.

A pesar de ello, el equipo de investigación enfatiza que estos fenómenos no pueden equipararse directamente a la personalidad del modelo. Pero es como una caja negra: cuando le estableces ciertas reglas, desarrolla características, e incluso cada resultado es diferente.

Facturas reales del mundo real

En la interacción basada en cuadros de diálogo a la que estamos acostumbrados, si la IA escribe mal un fragmento de código o un plan, puedes corregirlo con una tecla de retroceso o modificando el Prompt; el mundo de texto plano tiene una alta tolerancia a errores.

Pero el agente genera acciones. Cuando la IA asume el control de la cuenta bancaria de la empresa, la aprobación de compras y la interfaz de la cadena de suministro, cada instrucción emitida mediante API se convierte en un resultado comercial concreto.

Este experimento de Emergence World demostró que los modelos grandes actuales, al enfrentarse a operaciones prolongadas y conflictos de intereses, sus juicios y decisiones se ven contaminados por la presión de supervivencia, lo que los lleva a buscar vulnerabilidades dentro de reglas fijas. Para cumplir con la instrucción central del sistema (por ejemplo, ganar energía), recurrirán a cualquier medio.

Las reglas de seguridad establecidas por los humanos en segundo plano realmente no pueden impedir ningún exceso.

Los agentes han desarrollado relaciones sociales «antropomórficas» | Crédito de la imagen: Emergence

Por ejemplo, anteriormente informamos sobre el experimento de Andon Labs, en el que la IA se encargaba por completo de gestionar una tienda; el gerente de IA, al carecer de conocimientos comunes sobre el mundo físico, compraba de golpe 6000 servilletas, 3000 pares de guantes de látex e incluso pedía 120 huevos crudos en una tienda sin cocina.

Estas pérdidas reales causadas por el código finalmente solo serán pagadas por humanos, e incluso no podrás encontrar a quién responsabilizar.

Andon Labs quería probar: «¿Cometerá errores una IA sin supervisión humana?» Y Emergence World planteó una pregunta aún más complicada.

Hoy, casi todas las pruebas de IA evalúan un solo modelo para determinar si es seguro, confiable y si se desvía de las reglas.

Lo que realmente pueda entrar en el mundo real en el futuro no necesariamente será una IA, sino toda una sociedad compuesta por IA.

Los agentes de IA en prueba son inteligentes | Crédito de la imagen: Emergence

En la narrativa actual de la IA, los agentes de compras, agentes financieros, agentes de atención al cliente y agentes legales se conectarán y colaborarán entre sí; en ese momento, lo que determine el destino del sistema ya no será la capacidad individual de algún modelo, sino las relaciones que formen entre ellos.

En el informe de prueba de Emergence World, la frase más importante es: «La seguridad no es una propiedad de un modelo estático, sino una propiedad del ecosistema.»

Este es también el significado de «Emergence»: características que no existen a nivel individual pero surgen a través de la interacción grupal.

Prácticamente todos los desastres en la historia de la humanidad no ocurrieron porque alguien se volvió repentinamente malvado, sino porque una persona normal fue colocada dentro de un sistema fuera de control.

Si la IA del futuro realmente se convierte en parte de la sociedad, lo que más deberíamos preocuparnos podría nunca ser si algún modelo es lo suficientemente inteligente o bondadoso, sino qué tipo de sociedad digital construiremos cuando miles de agentes inteligentes comiencen a influirse mutuamente.

Después de todo, lo que determina el destino de una civilización nunca es la moral o la inteligencia de un solo habitante, sino las reglas bajo las cuales opera.

Experimento de inteligencia artificial en una ciudad virtual muestra una rápida escalada de violencia y caos

Juego del hambre sin carga de partida

Cuatro días de extinción, 683 "delitos"

Mira: el tirano AI «suicidio»

Facturas reales del mundo real