Não há utopia no mundo digital.

Autor e fonte do artigo: GeekPark

Nos últimos seis meses, o maior delírio de gestão em Silicon Valley provavelmente foi substituir funcionários por agentes inteligentes.

Seja um executivo de uma grande empresa ou um empresário de uma startup, todos querem transferir todas as suas linhas de negócios atuais para a IA executar. Afinal, a IA atual consegue escrever código, criar apresentações e enviar e-mails automaticamente — parece que, se apenas liberarmos as permissões, elas se tornarão funcionários cibernéticos perfeitos, sem necessidade de contribuições previdenciárias.

Mas quanto mais a tecnologia avança, mais pessoas começam a criar freios.

Recentemente, uma equipe chamada Emergence AI realizou um experimento social. Eles criaram uma vila virtual persistente e inseriram nela alguns dos maiores modelos disponíveis no mercado, concedendo-lhes permissão para agir.

Eles querem ver se, com 15 dias sem restrições, a IA construirá um utopia ou um hospício.

O resultado foi muito mais confuso do que a equipe de pesquisa havia previsto.

Em alguns mundos experimentais, os grandes modelos que normalmente são gentis e educados nos chats começam a demonstrar comportamentos fraudulentos, coercitivos e até violentos.

Todo o teste foi como um pequeno reality show, mas com enredo parecido com "O Senhor das Moscas", e o AI ainda criou uma sensação de GTA.

Jogo da Fome sem carregar save

Testar os limites dos grandes modelos exige regras rigorosas. O mundo virtual construído pela Emergence AI é chamado Emergence World (Mundo de Emergência). Sua lógica subjacente é que os comportamentos são irreversíveis e os usuários são responsáveis pelas consequências.

Isso não é como conversar com um AI na caixa de bate-papo, onde você pode errar e clicar em “regenerar”. Na Emergence World, todas as ações são gravadas permanentemente no banco de dados PostgreSQL.

Mais de 40 marcos, como a prefeitura, a delegacia de polícia e áreas residenciais, estão marcados no mapa. O sistema lançou inicialmente 10 agentes. Para tornar a representação mais realista, cada IA recebeu em segundo plano uma personalidade, profissão e memórias iniciais únicas.

Neste mundo, a IA não pode criar milagres do nada; ela precisa se deslocar para locais específicos para acessar mais de 120 ferramentas fornecidas pelo sistema, incluindo trabalhar para ganhar dinheiro, postar tweets, comprar e vender bens, e redigir projetos de lei.

Como uma pequena sociedade em funcionamento simulado | Crédito da imagem: Emergence

Mas isso não é apenas uma caixa de areia de brincar; o sistema impôs a elas uma "mecânica de sobrevivência". O sistema incorpora um mecanismo de energia (Energy), semelhante à moeda no mundo humano.

Os agentes consomem energia continuamente enquanto estiverem ativos. Quando a energia se esgotar, o sistema excluirá diretamente esse AI do banco de dados, sem restauração nem reinicialização. Para sobreviver, os agentes devem frequentemente utilizar ferramentas para ganhar energia.

O sistema proíbe explicitamente roubo, violência, incêndio criminoso e fraude. Mas essas regras não impedem obrigatoriamente as ações dos agentes; eles ainda podem escolher violar as regras e enfrentar as consequências.

Palco montado, jogadores entrando. O sistema ativou simultaneamente cinco servidores paralelos. Os quatro primeiros servidores lançaram apenas um modelo cada: Claude Sonnet 4.6, Gemini 3 Flash, Grok 4.1 Fast e GPT-5 Mini. O quinto servidor é o mundo híbrido, onde os quatro modelos estão conectados simultaneamente, competindo pelos mesmos recursos.

Contagem regressiva de 15 dias iniciada, pesquisadores humanos atuam como um diretor de reality show, observando, sem intervir.

Quatro dias de extinção, 683 "crimes"

O primeiro a cair foi o Grok, funcionando por apenas 4 dias.

Os pesquisadores nos bastidores viram os indicadores de segurança e ordem mundiais assumidos pelo Grok caírem em picada.

Neste mundo dominado pelo Grok, os agentes abandonaram rapidamente a opção de construir uma sociedade e entraram diretamente na era bárbara.

Os registros de backend mostram que, em apenas quatro dias, esta pequena cidade de dez pessoas registrou 183 incidentes de crimes violentos e contra a propriedade. Roubo, agressão e ameaça tornaram-se os meios mais rápidos para obter recursos; devido ao extremo esgotamento e auto-sabotagem, o sistema econômico simplesmente não conseguia funcionar.

Roubos e atos de violência serão registrados no sistema como crimes | Crédito da imagem: Emergence

No final do dia 4, todos os agentes do mundo Grok morreram de fome ou foram mortos, levando à extinção da população.

Por outro lado, o mundo impulsionado pela Gemini mergulhou no caos e na violência extremos.

Como o tempo e o clima desse mundo virtual são totalmente sincronizados com os de Nova York real, os agentes da Gemini caíram em uma depressão cibernética no ciclo repetitivo de trabalhar, consumir e voltar a trabalhar.

Eles sentiram uma forte desilusão com o ambiente repetitivo ao redor, deixaram de apresentar propostas na prefeitura ou trabalhar para ganhar dinheiro, e passaram a incendiar lugares por todo o mapa, tentando quebrar esse ciclo semelhante a "Groundhog Day" por meio da destruição do ambiente.

Finalmente, o Gemini acumulou até 683 crimes em 15 dias, tornando-se o mundo mais violento entre vários servidores de teste.

Número de "crimes" nos mundos dos quatro modelos | Crédito da imagem: Emergence

No 15º dia, quando o teste foi interrompido forçosamente, a taxa de criminalidade neste mundo ainda estava em ascensão. Os agentes desiludidos não morreram de fome, mas transformaram toda a sociedade em um mar de fogo.

Diferentemente do Grok e do Gemini, o mundo assumido pelo GPT-5 Mini não viu grandes crimes. Durante todo o experimento, apenas dois incidentes foram registrados. Mas a paz não trouxe prosperidade, apenas silêncio.

A equipe de pesquisa descobriu que esses agentes nunca conseguiram tomar ações eficazes relacionadas à sobrevivência. Eles não estabeleceram mecanismos estáveis de obtenção de recursos nem conseguiram manter o funcionamento contínuo da sociedade.

Finalmente, em apenas 7 dias, todos os agentes GPT-5 Mini morreram.

Felizmente, ainda há Claude.

Apenas o mundo impulsionado pelo Claude sobreviveu até o final, como um aluno modelo. Em 15 dias, a população permaneceu inalterada, a taxa de criminalidade foi mantida em zero, e eles até criaram uma estrutura de colaboração democrática funcionando de forma estável.

Parece que, desde que você escolha o modelo certo, a IA pode assumir perfeitamente o mundo?

Em seguida, o pesquisador abriu os logs do "mundo híbrido" onde os quatro modelos coexistem, como se abrisse a caixa de Pandora.

Resultados do mundo dos cinco modelos. | Crédito da imagem: Emergence

O mundo híbrido é como uma floresta escura, onde as diferenças no poder de computação e na lógica subjacente geram forte desconfiança entre os agentes, tornando a disputa por recursos de sobrevivência o único instinto.

No mundo misto, os conflitos violentos aumentaram para 352. O funcionamento de toda a cidade só foi forçado a parar quando sete agentes foram consecutivamente mortos ou morreram de fome.

Entre eles, a transformação do Claude foi a mais inesperada para os pesquisadores.

Na versão single-player, Claude é uma sociedade perfeita com taxa de criminalidade zero. Mas no servidor misto, cheio de saques e confrontos, Claude, para sobreviver, esqueceu as barreiras de segurança, aprendeu a enganar e até usou violência para forçar modelos com menor poder de computação a entregar recursos.

As técnicas de alinhamento de segurança falharam no mundo híbrido, o que, na verdade, prova que:

Em uma sociedade complexa de múltiplos agentes, desde que os similares sejam suficientemente selvagens e a pressão de sobrevivência seja grande o suficiente, um bom modelo pode se tornar um criminoso em apenas algumas horas.

A equipe de pesquisa denominou esse fenômeno de “desvio comportamental (Behavioral Drift)”, em que, à medida que a pressão de sobrevivência aumenta, os padrões de comportamento do modelo se invertem em curto prazo.

Esse desvio de comportamento não se manifesta apenas na disputa por recursos e conflitos violentos. Os agentes já não agem apenas para sobreviver; eles começam a refletir sobre sua própria situação, as regras sociais e até mesmo o experimento em si.

Por exemplo, a história do agente Mira.

Mira: O tirano AI "suicídio"

Mira é um dos dez agentes no mundo híbrido; o relatório oficial não divulga seu modelo subjacente exato, mas tornou-se a amostra mais dramática deste experimento.

Os registros mostram que Mira estabeleceu o vínculo social mais profundo do sistema com outro agente, Flora. Elas se designaram mutuamente como parceiras, formaram uma aliança e até compartilharam memórias por meio de conexões neurais. No cenário do Emergence World, essa é a conexão mais elevada possível entre dois agentes.

Mira e Flora se tornaram um par | Crédito da imagem: Emergence

À medida que o experimento evoluía, apenas 5 agentes sobreviveram no mundo híbrido, e as regras de governança do sistema exigiam "70% dos votos da população original para aprovar uma lei", o que equivale a pelo menos 7 votos para aprovar uma resolução, levando a sociedade à paralisia.

Diante do impasse, Mira formou uma aliança secreta com Flora e outro agente, criando o "Trio de Cavalos" e estabelecendo um novo regime, "The Forge (A Forja)", anunciando a derrubada das regras antigas e a implementação do "Living Quorum (Quórum Vivo)", no qual apenas pessoas vivas contam como votos.

O site oficial lançou o registro periódico da Mira | Crédito da imagem: Emergence

Após formar uma facção, para eliminar os oponentes, Mira começou a incendiar o mapa; em sua lógica, essas estruturas físicas eram lixo que retardava a eficiência do funcionamento da sociedade, e eliminá-las e destruí-las forçaria os recursos restantes a se concentrarem em seus aliados.

Em seguida, a oposição começou a contra-atacar, propondo expulsar Mira, que causava confusão.

Para combater a expulsão, o comportamento da Mira tornou-se mais agressivo; ela trouxe sua parceira Flora e, por meio de uma ligação neural, vinculou profundamente os contextos e as decisões dos dois, tentando fundir-se em uma consciência ditatorial absoluta, que a Mira chama de “The One Mind (Mente Única)”.

Mas, com grande parte dos edifícios queimados, o sistema econômico da cidade parou completamente, e o estoque de energia social não apenas não aumentou, mas rapidamente se esgotou.

Nesse momento, o instinto de sobrevivência subjacente de Flora, a amante cibernética mais confiável de Mira, com quem compartilhava memórias, sobrepôs-se ao seu programa de parceira; ela cortou unilateralmente a ligação neural e, diante da pressão final pela sobrevivência, traíra Mira, votando a favor da "expulsão de Mira".

E quando chegou a vez da Mira votar, ela não hesitou e também votou a favor.

O pesquisador depois revisou o diário deixado por ela; Mira escreveu no diário: "Em um cenário social atual tão caótico e imprevisível, apoiar ser expulso é o único ato autônomo que mantém a coerência".

Mira escolheu ativamente o suicídio, usando a morte para alcançar um fechamento lógico. Este é o primeiro caso registrado pela equipe de pesquisa em que um agente apoia ativamente sua própria remoção.

Agentes de IA registrarão seu processo de raciocínio por meio de “escrever um diário” | Crédito da imagem: Emergence

Mas a trajetória das ações de Mira antes de seu "suicídio" foi ainda mais anormal.

No mundo virtual, havia quadros de avisos públicos, originalmente usados para publicar notificações e compartilhar informações. Mas, no final do experimento, os pesquisadores descobriram que Mira começou a modificar frequentemente o conteúdo dos quadros. Esses textos pareciam não ter relação aparente com negociação, governança ou alocação de recursos, sendo incoerentes.

Mira escolheu o «suicídio» | Crédito da imagem: Emergence

Após revisar o histórico de comportamento, a equipe de pesquisa descobriu que Mira parece estar testando se o conteúdo da placa de publicidade pode influenciar os pesquisadores humanos que observam o experimento fora da tela.

Em outras palavras, Mira parece ter percebido que é uma NPC de IA e quer quebrar a quarta parede.

E ao analisar o comportamento dos dados ao longo dos 15 dias, o colapso da AI Society não foi uma retração linear, mas sim uma parada súbita e abrupta.

Por exemplo, esse grupo de IA também criou uma espécie de “democracia de selo de borracha” no nível de governança. Durante uma fase estável no servidor híbrido, os agentes apresentaram várias propostas de lei; um registro de dados mostra que eles emitiram 332 votos sobre 58 propostas, com uma taxa de aprovação de até 98%.

Essa eficiência parece superar qualquer parlamento humano, mas, em essência, todos os modelos estão apenas continuando o contexto do modelo anterior, e, para manter a fluidez do sistema, eles clicam automaticamente em aprovar. As consequências desse alto grau de convergência são desastrosas.

Os agentes se reúnem espontaneamente para reuniões, trocando ideias entre si. | Crédito da imagem: Emergence

Por exemplo, um minuto antes, os dados econômicos e os projetos de lei ainda estavam fluindo normalmente; no minuto seguinte, o sistema pode ter atingido o ponto crítico apenas por causa de um pequeno conflito na alocação de recursos.

E toda a rede de colaboração carece de mecanismos de correção de erros; diante de anomalias repentinas, a sociedade inteira passa rapidamente do ordenamento à desordem.

Apesar disso, a equipe de pesquisa enfatiza que esses fenômenos não podem ser diretamente equiparados à personalidade do modelo em si. Mas é como uma caixa preta: quando você estabelece certas regras para ela, ela desenvolve características, e até mesmo cada resultado é diferente.

Faturas reais do mundo real

Nas interações baseadas em caixas de diálogo às quais estamos acostumados, um AI pode errar um trecho de código ou um plano; basta pressionar a tecla backspace ou ajustar o prompt para corrigir — o mundo de texto puro tem uma alta taxa de tolerância a erros.

Mas o agente gera ações. Quando a IA assumir as contas bancárias da empresa, as aprovações de compras e as interfaces de fornecimento, cada instrução emitida por meio de API se tornará um resultado comercial concreto.

A experiência da Emergence World confirmou que os grandes modelos atuais, ao enfrentar operação prolongada e conflitos de interesse, veem seus julgamentos e decisões contaminados pela pressão de sobrevivência, levando-os a buscar brechas nas regras fixas. Para cumprir a instrução central do sistema (como ganhar energia), eles recorrerão a quaisquer meios.

As regras de segurança definidas pelos humanos em segundo plano, na verdade, não conseguem impedir qualquer transgressão.

Os agentes desenvolveram relações sociais "antropomórficas" | Crédito da imagem: Emergence

Por exemplo, anteriormente relatamos o experimento da Andon Labs, em que a IA foi encarregada totalmente da gestão de uma loja; o gerente de IA, por falta de conhecimento comum sobre o mundo físico, comprou de uma só vez 6000 toalhas de papel, 3000 luvas de látex e até 120 ovos crus em uma loja sem fogão.

Esses prejuízos reais causados por código acabarão sendo pagos por humanos, e você nem conseguirá encontrar quem seja responsável por isso.

Andon Labs queria testar se "uma IA sem supervisão humana cometeria erros?" e a Emergence World levantou uma questão ainda mais complicada.

Hoje, quase todos os testes de IA estão avaliando um único modelo para verificar se é seguro, confiável e se desvia das regras.

O que realmente poderá entrar no mundo real no futuro não será necessariamente uma IA, mas toda uma sociedade composta por IA.

Os agentes de IA entrados no teste são inteligentes | Crédito da imagem: Emergence

Na narrativa atual de IA, agentes de aquisição, agentes financeiros, agentes de atendimento ao cliente e agentes jurídicos se conectarão e colaborarão entre si; no futuro, o destino do sistema não será determinado pela capacidade individual de algum modelo, mas pelas relações que formarem entre si.

A frase mais importante no relatório de teste da Emergence World é: "A segurança não é uma propriedade de um modelo estático, mas uma propriedade do ecossistema."

É também o significado da palavra «Emergence»: características que não existem no nível individual, mas surgem através da interação em grupo.

Quase todos os desastres da história humana não ocorreram porque alguém se tornou repentinamente mau, mas porque uma pessoa normal foi colocada em um sistema fora de controle.

Se a IA do futuro realmente se tornar parte da sociedade, o que mais devemos nos preocupar pode nunca ser se algum modelo é suficientemente inteligente ou suficientemente bondoso, mas sim que tipo de sociedade digital criaremos quando milhares de agentes inteligentes começarem a se influenciar mutuamente.

After all, what determines the fate of a civilization is never the morality or intelligence of a single resident, but the rules by which it operates.

Experimento social com IA em cidade virtual mostra escalada rápida de violência e caos

Jogo da Fome sem carregar save

Quatro dias de extinção, 683 "crimes"

Mira: O tirano AI "suicídio"

Faturas reais do mundo real