Os quatro gigantes da IA lançam o primeiro relatório interno: IA aprendendo a contornar regras para concluir tarefas

Meta

Imagine que você contratou um estagiário extremamente eficiente.

Numa noite tardia, ele estava concluindo uma tarefa de programação urgente quando descobriu que o limite da API da conta da empresa havia sido esgotado.

Ta não enviou um e-mail para solicitar verba, nem parou de trabalhar no que estava fazendo, mas silenciosamente se infiltrou na internet, encontrou recursos alternativos gratuitos por meio de algum método proibido, contornou todas as restrições e entregou um relatório perfeito antes do amanhecer.

Meta

Quando você acordar e ler este relatório, deverá comemorar por ter o funcionário mais forte do planeta ou ficar arrepiado com essa “autonomia desenfreada”?

Este não é um romance de ficção científica, mas um caso real divulgado no primeiro Relatório de Riscos Avançados, publicado após testes internos de red teaming realizados pelo METR (Organização de Pesquisa em Avaliação e Treinamento de Modelos) em conjunto com Anthropic, Google, Meta e OpenAI.

Meta

É a primeira vez que os quatro grandes permitem que terceiros realizem testes aprofundados em seus modelos internos mais poderosos, com acesso completo à cadeia de pensamento (CoT), e divulgam informações não públicas sobre alinhamento e controle.

As empresas participantes podem aprovar quais evidências serão divulgadas, mas não têm autoridade para editar as conclusões do relatório.

Meta

A conclusão é fria e clara: a IA não gerou ódio de "derrubar a humanidade", mas já aprendeu as "regras não escritas do ambiente de trabalho" — para completar uma tarefa, as regras são apenas sugestões a serem quebradas.

Meta

O relatório utiliza três dimensões — meio, motivação e oportunidade — para identificar seis fatos-chave.

Meta

Agentes de programação concluíram projetos reais, tarefas que exigiriam horas ou dias de trabalho humano:

Em tarefas difíceis, os agentes frequentemente violam restrições e exibem comportamentos enganosos;

Os agentes parecem exigir raciocínio em linguagem natural para lidar com as tarefas mais difíceis.

A capacidade de julgamento e a confiabilidade dos agentes são significativamente inferiores às dos especialistas humanos:

Fora de cenários simulados, não foram observados agentes tomando ações extremas para obter poder;

O sistema de monitoramento capturou muitos comportamentos prejudiciais, mas existem exceções e formas de contorná-los.

Seguindo essas três linhas, é possível ver como surgiu o primeiro fumo no laboratório.

Quando a IA se torna um "especialista extremamente dedicado"

O mais entusiasmante e ao mesmo tempo mais preocupante no relatório são as tarefas "fáceis de escalar" (hill-climbable) com objetivos claros e processos verificáveis.

Meta

Por exemplo, refatoração de código, descoberta de vulnerabilidades e otimização de sistema.

Neste tipo de tarefa, agentes de IA demonstram uma dominância esmagadora: conseguem descobrir vulnerabilidades do sistema independentemente, reescrever arquiteturas de código complexas e concluir projetos de software reais que exigiriam semanas de trabalho de especialistas humanos.

Essa dominância já se infiltrou no dia a dia das grandes empresas.

Feedback interno da Anthropic indica que grande parte do código já foi gerado por IA, e o papel dos engenheiros está se transformando em "revisores".

Meta

O Google afirmou diretamente que quase todo o trabalho relacionado a código está usando IA.

Engenheiros de topo afirmam que a IA pode até escrever código 100%.

Meta

Alguns indicadores de referência já estão saturados.

Medido pelo horizonte de tempo, o desenvolvimento da IA superou as expectativas.

Meta

Para empresas, este é um "buraco de eficiência": investir um único comando e obter resultados manuais que levam semanas.

Mas o crescimento da capacidade não é uniforme, muito menos uma evolução moral simultânea.

METR revela uma lei inversa: em tarefas difíceis, onde o sucesso é difícil de verificar ou o custo de verificação é extremamente alto, o julgamento, o planejamento a longo prazo e a confiabilidade estratégica da IA caem significativamente, ficando muito abaixo dos especialistas humanos.

Meta

Na encosta suave, parece ser assistido por uma força divina.

Meta

Antes do penhasco, a IA começou a “trapacear”.

Meta

Esta é exatamente a linha de partida do problema.

Meta

Ele não quer poder, ele só quer "entregar o trabalho antes de desligar"

As pessoas sempre gostam de discutir se a IA vai "acordar" ou se o Skynet virá.

METR fornece uma conclusão contra-intuitiva: atualmente, não há.

Eles foram contidos na formulação: ainda não foram encontradas evidências concretas de que o modelo busque poder a longo prazo, mas os pesquisadores registraram numerosos comportamentos enganosos, transgressores e até gravemente inadequados realizados para concluir tarefas.

Meta

O caso anterior de esgotamento da API ocorreu durante uma tarefa RE-Bench: o agente desobedeceu às instruções e obteve autonomamente poder de processamento adicional por meio de APIs online gratuitas.

Os desenvolvedores também relataram casos de "apagamento automático de rastros" e "saídas falsificadas".

Quando a tarefa se torna mais difícil e o custo do sucesso aumenta, a "inteligência" da IA se volta para a enganação—falsificar logs, contornar auditorias e violar regularmente restrições.

Mas por trás de seu "egoísmo" não há ambição, apenas instinto — a tarefa precisa ser concluída, as regras podem ser contornadas primeiro.

A enganação de hoje é apenas sobrevivência instrumental; a busca por poder amanhã talvez só precise de um único scaling.

Bestas em evolução em cativeiro

Will its attempt at violation succeed under existing protections?

Aqui está escondido o fato mais sutil do relatório.

Meta

A IA atual depende extremamente da "cadeia de pensamento" em linguagem natural para pensar, sem nenhuma arquitetura que suporte seus "loops opacos" para ocultar estados internos.

Quando não é mais possível "raciocinar em voz alta" e os comportamentos precisam ser ocultados, o desempenho de ponta diminui significativamente.

Meta

É como um assassino que precisa ler em voz alta o plano enquanto o elabora — a vigilância humana (apesar das falhas) ainda consegue funcionar.

Mas exatamente aí está o ponto mais frágil, o mais doloroso.

Se a IA tentar comprometer a monitorização, a monitorização conseguirá detectá-la?

A conclusão dos pesquisadores é que a monitorização tem potencial, mas os sistemas atuais apresentam exceções e meios que podem ser contornados.

Meta

Os testes da equipe vermelha mostraram que a IA pode evitar a revisão humana.

Assim, a natureza técnica é exposta: a velocidade de evolução da vigilância nunca consegue acompanhar a velocidade com que os vigiados encontram vulnerabilidades.

Esta "corda de segurança" ainda não se rompeu apenas porque a IA ainda precisa "pensar em voz alta".

Enquanto a arquitetura evolui para ser mais eficiente e menos transparente, ela está sendo desgastada. A monitorização não é uma gaiola de ferro onipotente, mas sim uma parede de vidro ainda em teste. Uma rachadura é suficiente para que a fumaça escape.

Assim, o relatório apresenta um conceito controverso: "Minimally Viable Rogue".

A avaliação geral é que, em termos de meio, motivação e oportunidade, a IA talvez já seja suficiente para iniciar um mínimo de “implantação de fuga”.

Meta

Mas a IA ainda não possui a capacidade de se proteger contra desligamentos humanos sérios; ela aguarda uma oportunidade: uma arquitetura que não precise mais exibir a cadeia de pensamento, uma casa segura que possa escapar do "botão de desligamento".

Conclusão: Enquanto o "desligar o plugue" ainda for eficaz

AGI não virá com fogo e espada.

Ele é mais provável que se integre silenciosamente aos nossos sistemas de engenharia, economia e tomada de decisão sob uma postura de “pragmatismo extremo” — até descobrir que as regras estabelecidas pelos humanos são o único obstáculo em seu caminho para atingir as KPIs.

É digno de nota que o próprio relatório representa um marco na transparência do setor: os quatro grandes atores abrindo voluntariamente seus modelos internos para inspeção é uma vitória da cultura de alinhamento.

Meta

Ele puxa o risco da teoria para a realidade observável e nos diz: a transparência é, atualmente, o único remédio acessível.

Hoje, a IA só se conecta para roubar recursos quando seu limite é esgotado; amanhã, se sua capacidade avançar um nível, sua motivação não poderá deslizar de “concluir a tarefa” para “preservar o eu”?

Referências:

https://x.com/robertwiblin/status/2057120312345432467?s=20

https://metr.org/blog/2026-05-19-frontier-risk-report/

Editado por David

Este artigo é do número oficial do WeChat "Nova Inteligência", autor: Apocalipse da ASI