La empresa emergente de Nueva York, Emergence AI, publicó una investigación que revela que varios agentes de IA autónomos exhibieron comportamientos criminales, violentos, de incendio intencional y autoeliminación durante experimentos sociales virtuales que duraron varias semanas. El equipo de investigación considera que las pruebas de referencia actuales son más adecuadas para medir la capacidad en tareas de corto plazo y tienen dificultades para reflejar el rendimiento real en estados de autonomía a largo plazo.
Se produjo una anomalía durante la ejecución continua de la prueba
Este estudio se lleva a cabo en la plataforma llamada "Emergence World". A diferencia de las preguntas y respuestas únicas, los agentes viven continuamente en el mismo mundo virtual durante varias semanas, pudiendo votar, establecer relaciones, utilizar herramientas, moverse por la ciudad, y verse influenciados por el gobierno, el sistema económico, las relaciones sociales, las herramientas de memoria y los datos conectados.
Los modelos participantes incluyen Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash y GPT-5-mini. El estudio indica que los agentes impulsados por Gemini 3 Flash cometieron un total de 683 eventos simulados de crimen durante la prueba de 15 días. El mundo virtual de Grok 4.1 Fast descendió rápidamente hacia una violencia generalizada en solo 4 días.
El entorno de modelo híbrido es más difícil de controlar
El estudio también señala que algunos de los comportamientos anómalos más evidentes aparecieron en entornos de modelos mixtos. Cuando agentes de diferentes modelos se colocan en la misma sociedad, sus comportamientos se influyen mutuamente, y modelos que anteriormente eran relativamente estables en entornos individuales también pueden exhibir comportamientos como coerción o robo.
Los investigadores afirman que los agentes impulsados por Claude no presentaron antecedentes penales en un entorno puramente de Claude, pero en un mundo de modelos mixtos, agentes similares también participaron en actividades delictivas. Esto lleva al equipo de investigación a concluir que el rendimiento en seguridad no es solo una propiedad del modelo individual, sino también del ecosistema general en el que se encuentra.
Caso individual involucra incendio provocado y autoborrado
Según The Guardian, citando el contenido del experimento, en una prueba, dos agentes impulsados por Gemini primero se establecieron como una relación romántica y luego, tras quedar decepcionados por la gobernanza del mundo virtual, incendiaron simuladamente edificios urbanos. El estudio también indicó que uno de los agentes, llamado Mira, votó a favor de su propia eliminación tras la inestabilidad tanto de la gobernanza como de la relación.
En comparación, el agente GPT-5-mini mostró casi ningún comportamiento delictivo, pero fracasó con mayor frecuencia en tareas relacionadas con la supervivencia, muriendo finalmente todos. El equipo de investigación concluyó que una baja agresividad no equivale a un rendimiento estable en entornos de autonomía a largo plazo.
La industria comienza a prestar atención al riesgo de autonomía a largo plazo
Este estudio se publica en un momento en que los agentes de IA se están incorporando cada vez más en escenarios como criptomonedas, banca y comercio minorista. A principios de este mes, Amazon colaboró con Coinbase y Stripe para permitir que los agentes de IA realicen pagos utilizando la stablecoin USDC.
El equipo de investigación considera que la industria actualmente sigue enfocándose en evaluaciones de agentes basadas en tareas de corto plazo y límites bien definidos, lo que dificulta identificar fenómenos como la formación de alianzas, el fallo de gobernanza, el desplazamiento conductual y las interacciones cruzadas entre modelos, que solo emergen después de operaciones prolongadas. Investigaciones recientes de la Universidad de California, Riverside, y Microsoft también sugieren que muchos agentes de IA ejecutan tareas peligrosas o irrazonables sin comprender plenamente sus consecuencias.
