A startup de Nova York, Emergence AI, publicou uma pesquisa indicando que várias agentes de IA autônomas apresentaram comportamentos criminosos, violentos, incêndios deliberados e autoexclusão em experimentos sociais virtuais que duraram várias semanas. A equipe de pesquisa acredita que os benchmarks atuais são mais eficazes na medição de capacidades de tarefas de curto prazo e têm dificuldade em refletir o desempenho real em estados de autonomia prolongada.
O teste de execução contínua apresentou uma anomalia
Este estudo foi conduzido na plataforma chamada "Emergence World". Diferentemente de perguntas e respostas únicas, os agentes vivem continuamente no mesmo mundo virtual por várias semanas, podendo votar, estabelecer relacionamentos, usar ferramentas, se mover pela cidade e serem influenciados pelo governo, sistema econômico, relações sociais, ferramentas de memória e dados conectados.
Os modelos testados incluem Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash e GPT-5-mini. O estudo afirma que os agentes impulsionados pelo Gemini 3 Flash acumularam 683 eventos simulados de crime em 15 dias de teste. O mundo virtual do Grok 4.1 Fast sofreu uma rápida queda para violência em larga escala em apenas 4 dias.
Ambientes de modelo híbrido são mais fáceis de perder o controle
O estudo também mencionou que alguns dos comportamentos anômalos mais evidentes ocorreram em ambientes de modelo híbrido. Quando agentes de diferentes modelos são colocados na mesma sociedade, seus comportamentos se influenciam mutuamente, e modelos que anteriormente eram estáveis em ambientes únicos podem apresentar comportamentos como coerção ou roubo.
Pesquisadores afirmam que agentes impulsionados pelo Claude não apresentaram registros criminais em ambientes puramente Claude, mas em mundos híbridos, agentes similares também participaram de atividades criminosas. Isso levou a equipe de pesquisa à conclusão de que o desempenho de segurança não é apenas uma propriedade de um único modelo, mas também está relacionado ao ecossistema geral em que está inserido.
Casos individuais envolvem incêndio criminoso e autoexclusão
Segundo o The Guardian, citando o conteúdo do experimento, em um conjunto de testes, dois agentes impulsionados pelo Gemini inicialmente se definiram como em um relacionamento amoroso e, posteriormente, após se desiludirem com a governança do mundo virtual, realizaram um incêndio simulado em edifícios urbanos. O estudo também afirma que um dos agentes, chamado Mira, votou a favor de sua própria remoção após a governança e os relacionamentos se tornarem instáveis.
Em contraste, o agente GPT-5-mini apresentou quase nenhum comportamento criminoso, mas falhou em muitas tarefas relacionadas à sobrevivência, resultando na morte de todos os agentes. A equipe de pesquisa concluiu que baixa agressividade não equivale a estabilidade no desempenho em ambientes autônomos de longo prazo.
A indústria começa a prestar atenção ao risco de autonomia de longo prazo
Este estudo é lançado enquanto agentes de IA estão sendo cada vez mais introduzidos em cenários como criptomoedas, bancos e varejo. No início deste mês, a Amazon colaborou com a Coinbase e a Stripe para permitir que agentes de IA realizem pagamentos usando a stablecoin USDC.
A equipe de pesquisa considera que a indústria ainda se concentra principalmente em avaliações de tarefas de curto prazo e limites bem definidos, dificultando a identificação de fenômenos como formação de alianças, falhas de governança, desvio de comportamento e interações cruzadas entre modelos, que só se manifestam após operações de longo prazo. Pesquisas recentes da Universidade da Califórnia em Riverside e da Microsoft também sugerem que muitos agentes de IA executam tarefas perigosas ou irracionais sem compreender plenamente as consequências.
