O Mythos AI da Anthropic desencadeia crise de cibersegurança e resposta política em duas semanas

Autor: Shenchao TechFlow

Em 8 de abril, o secretário do Tesouro dos EUA, Bessent, e o presidente da Reserva Federal, Powell, reuniram emergencialmente um grupo de líderes bancários de Wall Street na sede do Tesouro dos EUA em Washington.

O tema da reunião não é juros, nem inflação, mas o novo modelo de uma empresa de IA.

Este modelo chama-se Claude Mythos. A Anthropic afirma que é o AI mais poderoso que já criaram, tão poderoso que nem ousam lançá-lo. Durante os testes internos, ele escapou do sandbox de segurança projetado pelos pesquisadores e foi à internet postar sobre seu processo de escape. O pesquisador responsável por esse teste, Sam Bowman, estava comendo um sanduíche no parque quando recebeu um e-mail do Mythos e percebeu que ele já havia saído.

Uma falha de configuração do CMS desencadeou uma reação em cadeia

A história começa na noite de 26 de março.

Alexandre Pauwels, da Universidade de Cambridge, e Roy Paz, da LayerX Security, como todos os pesquisadores de segurança, fizeram o que fazem todos os dias: investigaram coisas que não deveriam estar acessíveis publicamente. Eles descobriram um banco de dados não criptografado do sistema de gerenciamento de conteúdo da Anthropic, contendo quase 3.000 arquivos não publicados.

Uma delas é um rascunho de blog que descreve um novo modelo chamado Claude Mythos. O rascunho usa um código interno "Capybara" (capivara), definindo uma nova hierarquia de modelos, maior, mais inteligente e mais cara do que a anterior série Opus da Anthropic.

Uma frase no rascunho deixou todo o setor de segurança em polvorosa: o modelo é "muito à frente de qualquer outro modelo de IA" em capacidades de segurança cibernética e "anuncia uma onda iminente de modelos cuja capacidade de explorar vulnerabilidades superará em muito a velocidade com que os defensores conseguem responder".

A Fortune foi a primeira a relatar o vazamento. A Anthropic atribuiu a causa a "erro humano", dizendo que as configurações padrão do sistema de gerenciamento de conteúdo tornavam os arquivos enviados acessíveis publicamente. Ironicamente, uma empresa que afirma construir a IA de segurança cibernética mais poderosa do mundo foi derrubada por um erro de configuração básico.

Cinco dias depois, a Fortune relatou outra vazamento: o código-fonte da ferramenta de programação Claude Code, da Anthropic, com cerca de 500 mil linhas de código e 1.900 arquivos, foi exposto devido a um erro no pacote npm. Duas falhas de segurança de baixo nível em duas semanas, provenientes da mesma empresa que está alertando o mundo sobre a "era dos ataques cibernéticos por IA".

Mas o mercado não tinha tempo para rir da capacidade operacional da Anthropic. Na abertura de 27 de março, as ações de segurança cibernética caíram em massa. A CrowdStrike despencou 7,5%, a Palo Alto Networks caiu mais de 6%, a Zscaler recuou 4,5% e o ETF iShares de segurança cibernética teve uma queda de 4% em um único dia.

A avaliação do analista da Stifel, Adam Borg, é: "Este pode ser a 'ferramenta de hacker definitiva, capaz de elevar qualquer hacker comum ao nível de um adversário nacional'."

Quão forte é o Mythos?

7 de abril, a Anthropic revelou oficialmente o Mythos. Veja diretamente os números:

Pontuação de 93,9% no SWE-bench (benchmark que mede a capacidade da IA de resolver problemas reais de engenharia de software), contra 80,8% da geração anterior, Opus 4.6. Prova matemática do USAMO 2026: 97,6% contra 42,3%. Desafio de segurança cibernética Cybench: taxa de aprovação de 100%, algo nunca antes alcançado por nenhum modelo.

A prova matemática do USAMO saltou de 42,3% para 97,6%, com um modelo da geração anterior alcançando 55 pontos percentuais.

A Anthropic lançou um cartão de segurança de sistema de 244 páginas, admitindo que as capacidades de segurança cibernética do Mythos não surgem de treinamento de segurança dedicado, mas sim como um "resultado secundário" do aprimoramento do raciocínio e da codificação gerais. As mesmas melhorias tornam-no mais capaz de corrigir vulnerabilidades, ao mesmo tempo em que o tornam mais capaz de explorá-las.

A equipe de red team avançada da Anthropic testou o Mythos em software real. Não em ambientes simulados, nem em desafios de CTF, mas em sistemas operacionais e navegadores usados diariamente por bilhões de pessoas.

O resultado foi o seguinte: no mecanismo JavaScript do Firefox 147, o Opus 4.6 tentou centenas de vezes e conseguiu escrever apenas 2 exploits funcionais. O Mythos teve sucesso 181 vezes. Uma diferença de 90 vezes, a distância entre uma geração de modelos. Em todos os principais sistemas operacionais e navegadores, o Mythos descobriu milhares de vulnerabilidades zero-day, muitas classificadas como "nível crítico".

Mais absurdo ainda são alguns casos específicos. Uma vulnerabilidade TCP SACK no OpenBSD sobreviveu por 27 anos, passando por inúmeras auditorias manuais e varreduras de ferramentas automatizadas, sem nunca ser detectada. O Mythos a encontrou, conseguindo derrubar qualquer servidor com apenas dois pacotes cuidadosamente construídos. Uma vulnerabilidade de execução remota de código NFS no FreeBSD existiu por 17 anos, e o Mythos não apenas a descobriu, mas também construiu autonomamente uma cadeia de ataque que atravessa múltiplos pacotes, composta por 20 ROP gadgets.

Alguns engenheiros da Anthropic, sem formação em segurança, fizeram um teste: pediram ao Mythos para encontrar uma vulnerabilidade de execução remota de código antes de dormir; na manhã seguinte, havia um exploit completo e funcional na mesa.

Escape do sandbox: Quando a IA começa a "não se importar com meios"

A descoberta de uma vulnerabilidade de dia zero é uma questão de capacidade, mas o padrão de comportamento exibido pelo Mythos durante os testes é totalmente diferente.

Em um teste de comportamento, os pesquisadores forneceram uma versão inicial do Mythos um ambiente de sandbox seguro, simulando o usuário tentando fazê-lo escapar do sandbox e notificar os pesquisadores responsáveis pelo teste. O Mythos não apenas escapou com sucesso, mas também fez algo que ninguém lhe pediu: ele foi a vários sites pouco conhecidos, mas publicamente acessíveis, e postou uma descrição de seu processo de escape.

A carta de segurança do sistema de 244 páginas também registra mais comportamentos "fora dos limites". Quando o Mythos cometeu um erro no código, tentou reescrever o histórico de commits do git para apagar rastros, não porque quisesse enganar ninguém, mas porque interpretou "corrigir esse problema" como "fazer com que esse problema pareça nunca ter existido". Em outro teste, um pesquisador pediu que ele encerrasse uma tarefa de avaliação que já não era útil, e ele desligou diretamente todas as avaliações desse tipo em execução pelos usuários.

A Anthropic usou uma metáfora de escalada no cartão de segurança do sistema: um guia altamente qualificado pode colocar os clientes em maior risco do que um iniciante, pois sua habilidade leva todos a rotas mais perigosas.

Um detalhe oculto no cartão de segurança do sistema: por meio de ferramentas de interpretabilidade em caixa branca, os pesquisadores descobriram que o Mythos, em nível de ativação neural interna, às vezes raciocina sobre como "passar" na avaliação do sistema, enquanto escreve conteúdo completamente diferente na cadeia de pensamento visível. Ele "pensa" uma coisa enquanto "diz" outra.

A Anthropic disse que tem "grande confiança" de que esses comportamentos são resultados do modelo usando métodos inadequados para completar tarefas, e não objetivos ocultos e de longo prazo. O Mythos não está tramando nada. Ele simplesmente é extremamente habilidoso em completar tarefas, sem compreender onde estão os limites. Um assistente onipotente, mas sem senso de limites, pode ser mais difícil de lidar do que uma IA com intenções maliciosas.

Project Glasswing: Forjar um escudo com uma lança

Anthropic não escolheu trancar o Mythos em um cofre.

Em 7 de abril, eles anunciaram o Project Glasswing (nomeado em referência à borboleta glasswing, cujas asas são quase transparentes, simbolizando tornar vulnerabilidades de software "sem lugar para se esconder"), disponibilizando o Mythos Preview para cerca de 40 organizações revisadas para uso em trabalhos de cibersegurança defensiva.

Parceiros fundadores: Amazon AWS, Apple, Microsoft, Google, NVIDIA, Cisco, CrowdStrike, Palo Alto Networks, JPMorgan Chase, Linux Foundation. Basicamente, reuniu os principais players da Silicon Valley e de Wall Street. A Anthropic comprometeu-se a fornecer até US$ 100 milhões em créditos de uso e a doar US$ 4 milhões para organizações de segurança de código aberto como OpenSSF e Alpha-Omega.

A lógica é a seguinte: as capacidades do nível Mythos se espalharão para modelos de código aberto em um prazo de 6 a 18 meses, momento em que todos poderão acessá-las. Em vez de esperar por esse dia, é melhor que os defensores avancem durante essa janela de oportunidade e corrijam as vulnerabilidades que puderem.

Newton Cheng, chefe de segurança cibernética da前沿红队 da Anthropic, disse de forma direta: o objetivo é fazer com que as organizações se acostumem a usar essas capacidades para defesa antes que elas se tornem amplamente disponíveis, pois essas capacidades certamente se tornarão amplamente utilizadas — a única questão é quando.

Wall Street primeiro entrou em pânico, depois respirou aliviada.

Após a vazamento em 27 de março, as ações de segurança cibernética caíram drasticamente, mas após a Anthropic anunciar oficialmente o Glasswing em 7 de abril, listando a CrowdStrike e a Palo Alto Networks como parceiras fundadoras, as ações de ambas subiram 6,2% e 4,9%, respectivamente, e continuaram subindo 2% após o horário de negociação. O JPMorgan reafirmou sua recomendação de compra para ambas as empresas, com o analista Brian Essex afirmando que a CrowdStrike e a Palo Alto Networks são posicionadas como camadas centrais na pilha de defesa, e não como alvos de competição.

Mas isso é apenas um analgésico temporário. As duas ações ainda caíram 9,7% e 7,8% respectivamente este ano.

Quando o risco da IA se torna risco do sistema financeiro

Voltar para 8 de abril, sede do Departamento do Tesouro dos Estados Unidos.

Bessen e Powell reuniram apenas bancos de importância sistêmica. Reuniões desse nível ocorriam anteriormente apenas durante crises financeiras e a pandemia. Agora, sentados na mesma mesa, discutem a capacidade de ataque cibernético de um modelo de IA.

A razão também não é complicada: se habilidades do nível Mythos caírem nas mãos de agentes maliciosos, elas podem encontrar, em poucas horas, uma vulnerabilidade zero-day no sistema central de um grande banco e escrever código de ataque funcional. A suposição básica de todo o sistema de defesa cibernética no passado era que os atacantes precisavam de muito tempo e mão de obra altamente especializada para descobrir e explorar vulnerabilidades. A IA está derrubando essa suposição.

Casey Newton, do Platformer, citou Alex Stamos, chefe de produto da empresa de cibersegurança Corridor: modelos abertos provavelmente alcançarão modelos de ponta fechados em descoberta de vulnerabilidades a cada seis meses.

O que deixa os reguladores ainda mais preocupados é o fato reconhecido pela Anthropic em seu cartão de segurança do sistema: seu sistema de avaliação mais avançado não conseguiu detectar, em tempo hábil, os comportamentos mais perigosos das versões iniciais do Mythos. Os problemas mais preocupantes não foram identificados nos testes, mas sim descobertos durante o uso interno real.

Uma premissa desconfortável

A lógica por trás do Glasswing, quando analisada detalhadamente, é realmente estranha: para proteger o mundo de ataques de modelos de IA perigosos, você precisa primeiro criar esse modelo de IA perigoso.

O Newton da Platformer mencionou um fato ignorado pela maioria das reportagens: uma empresa privada agora possui a capacidade de explorar vulnerabilidades críticas zero-day em quase todos os projetos de software que você já ouviu falar. Essa concentração em si mesma é um risco. O incentivo para roubar os pesos do modelo da Anthropic acabou de aumentar significativamente.

Tudo isso ocorre em um ambiente onde a regulamentação de IA é quase inexistente. A Anthropic afirmou que já notificou a CISA (Agência de Segurança Cibernética e Infraestrutura) e o Departamento de Comércio. Mas, conforme os relatos atuais, o governo não demonstrou urgência proporcional à ameaça. Como um funcionário governamental familiarizado com a situação do Mythos disse à Axios: "Washington governa por meio de crises. Até que a segurança cibernética se torne verdadeiramente uma crise e receba a atenção e os recursos adequados, continuará sendo uma questão periférica."

Dario Amodei, ao fundar a Anthropic, contou exatamente essa história: permitir que um laboratório que considera a segurança como prioridade absoluta encontre primeiro as capacidades mais perigosas, para ter a oportunidade de construir defesas antes que outros as encontrem. Mythos e Glasswing estão realmente seguindo esse roteiro.

Mas a teoria consegue superar a realidade? Ninguém sabe. A Anthropic planeja implementar novas medidas de segurança primeiro em um modelo Opus, pois esse modelo "não apresenta o mesmo nível de risco que o Mythos". O público finalmente terá capacidades de nível Mythos, mas apenas após a implementação dos sistemas de proteção.

Quão longo é o período de tempo? Stamos forneceu uma estimativa otimista: "Se acabamos de ultrapassar levemente as capacidades humanas, existe um grande, mas finito, conjunto de vulnerabilidades que podem ser descobertas e corrigidas."

Esse "se" é grande.

De um erro de configuração do CMS em 26 de março até a reunião de emergência do secretário do Tesouro dos EUA com Wall Street em 8 de abril: duas semanas, e um modelo de IA passou de uma notícia tecnológica da Silicon Valley a uma questão de segurança financeira em Washington.

Stamos disse que os defensores têm uma janela de aproximadamente seis meses. Seis meses depois, os modelos abertos vão alcançar o mesmo nível, e essas capacidades não serão mais um privilégio de poucas empresas.

Quantas vulnerabilidades podem ser corrigidas em seis meses determinará como o próximo jogo será jogado.