Anthropic enfrenta resistência governamental sobre o modelo Fable AI

Autor: Ben Thompson

Tradução: Deep潮 TechFlow

Leitura crítica da Shenchao: O novo modelo Fable da Anthropic foi interrompido de emergência pelo governo dos EUA apenas dois meses após seu lançamento; aparentemente por “vazamento de segurança”, mas na realidade expõe uma dupla guerra entre laboratórios de IA, governos e a indústria de software. Essa empresa, que vende segurança como seu principal atrativo, está transformando a narrativa de segurança em uma moita comercial, enquanto seu verdadeiro alvo são os dados de usuários nas mãos de empresas como a Microsoft.

Entendo a posição dos céticos, que sempre acreditam que os anúncios públicos da Anthropic — especialmente as declarações feitas ao lançar modelos — são estratégias de marketing para espalhar pânico. Há dois meses, a Anthropic anunciou o lançamento do Mythos Preview, afirmando que o modelo era tão perigoso que não poderia ser divulgado, especialmente devido às suas poderosas capacidades de segurança cibernética. Dois meses depois, a empresa lançou publicamente o Fable, uma versão do Mythos com diversos mecanismos de segurança.

Pelos meus limitados experimentos, o Fable é realmente um modelo excepcional. Hoje, além do desempenho em programação, é difícil avaliar objetivamente modelos, mas ainda há percepções subjetivas; encontrei a experiência de interação com o Fable extremamente impressionante; ele faz outros modelos, incluindo o GPT 5.5 e o Opus 4.8, parecerem pequenos e tolos. Anteriormente, só tive essa sensação duas vezes: uma com o GPT-4 e outra com o Grok 4, ambos representando uma nova geração em termos de escala e complexidade de modelos básicos; acho que o Fable deriva de um novo pré-treinamento e é o primeiro da nova geração.

Portanto, eu totalmente aceito que o Fable/Mythos seja realmente mais forte na identificação e exploração de problemas de segurança, e faz sentido a abordagem cautelosa da Anthropic. Mas o problema com o lançamento público do modelo é que os limites podem ser contornados — e claramente isso aconteceu logo após o lançamento.

Anthropic enfrenta novamente o governo dos Estados Unidos

O que aconteceu a seguir é um pouco confuso. A Anthropic escreveu no post do blog:

O governo dos Estados Unidos invocou poderes de segurança nacional para emitir uma ordem de controle de exportação, suspendendo o acesso de todos os cidadãos estrangeiros ao Fable 5 e ao Mythos 5, tanto dentro quanto fora dos Estados Unidos, incluindo funcionários estrangeiros da Anthropic. O efeito prático desta ordem é que precisamos desativar abruptamente o Fable 5 e o Mythos 5 para todos os clientes para garantir a conformidade. O acesso a todos os outros modelos da Anthropic permanece inalterado.

Recebemos uma ordem do governo hoje às 17:21 horário da costa leste dos EUA. A carta não forneceu detalhes específicos sobre preocupações de segurança nacional. Compreendemos que o governo acredita ter identificado uma maneira de contornar ou "escapar" do Fable 5. Revimos uma demonstração que usava essa técnica específica para identificar um pequeno número de vulnerabilidades conhecidas. Essas vulnerabilidades pareciam relativamente simples, e descobrimos que outros modelos disponíveis publicamente também conseguem identificá-las sem necessidade de contornos.

Anthropic argumenta, em seguida, que os jailbreaks não universais são inevitáveis e de escopo limitado, sem evidência de que existam jailbreaks universais; os jailbreaks descobertos parecem ter sido relatados pela Amazon, o que é notável, pois a Amazon é tanto investidora da Anthropic quanto principal provedora de serviços de inferência da empresa. Enquanto eu escrevia este artigo, executivos da Anthropic estavam em Washington, D.C., tentando resolver o que eles insistem ser um mal-entendido, enquanto funcionários da Casa Branca sugeriram ser uma indiferença da liderança da empresa em relação a legítimas preocupações de segurança nacional.

Dado que há muitos fatos controversos, não tenho nada a acrescentar sobre o conflito atual; mas não me surpreende que o conflito esteja ocorrendo: já expliquei no artigo “Anthropic e Alinhamento” que o conflito entre o governo dos EUA e a Anthropic era inevitável. Nesse sentido, aqueles que acham que o Mythos ainda não é forte o suficiente para merecer ação governamental drástica perderam o ponto: se ainda não for forte o suficiente agora, o próximo será, ou o seguinte, especialmente agora que os modelos estão se tornando cada vez mais úteis na criação de seus sucessores.

No entanto, isso levanta outra questão — uma que parece confirmar o ponto de vista dos céticos: se Mythos é tão perigoso, por que lançar Fable no primeiro lugar? Por que ir contra o governo para fazer o que você afirma querer fazer? Na verdade, acho que o comportamento da Anthropic é perfeitamente compreensível; o que torna a empresa única é como ela justifica esses comportamentos — justificativas que fornecem combustível aos céticos e, ao mesmo tempo, conferem magia à Anthropic.

Necessidade econômica

Nos primeiros anos da IA, o maior valor econômico fluía para a capacidade de processamento, por uma razão óbvia: não tínhamos oferta suficiente para atender à demanda, o que levou a um aumento nos preços; os maiores beneficiários foram NVIDIA, TSMC e fabricantes de memória (SK Hynix, Samsung e Micron). Enquanto isso, Anthropic e OpenAI acumularam prejuízos de centenas de bilhões de dólares para construir modelos de ponta, que, assim que lançados, foram distilados e comercializados por modelos open-source, principalmente da China.

Isso representa a situação pessimista do laboratório — eles nunca conseguirão cobrir os custos, pois sua diferenciação é temporária e alternativas gratuitas se tornam "suficientemente boas" — acho isso razoável. Em um mundo onde os modelos são intercambiáveis, os modelos se tornam mercadorias, e o maior valor flui para outros lugares. Agora é a capacidade de processamento, mas com o tempo, quando tivermos capacidade de processamento suficiente, a posição mais valiosa da cadeia de valor será sempre a mais valiosa: ter contato com os usuários.

Portanto, sempre foi claro para mim que os laboratórios de ponta têm uma necessidade econômica de se aproximar mais dos usuários. Se você possui pontos de contato com o usuário, então possui um bloqueio significativo, e a melhor maneira de possuir pontos de contato com o usuário é se tornar a tela sobre a qual tudo o que eles precisam fazer é feito. Isso, por sua vez, significa que os laboratórios de ponta estão em conflito com empresas de software: o software possui os pontos de contato com o usuário, mas o interesse de longo prazo dos laboratórios de ponta não é simplesmente se tornar uma entrada commodity do software, e sim substituir diretamente o software.

Ao mesmo tempo, as empresas de software estão se esforçando para fazer o oposto. Satya Nadella detalhou em um artigo no X sua visão sobre como as empresas devem construir sobre modelos:

Cada empresa deve construir o que chamo de capital humano e capital de token. O capital humano inclui o conhecimento, o julgamento, os relacionamentos, a criatividade e a identificação de padrões dos seus funcionários, enquanto o capital de token é a capacidade de IA que a empresa constrói e possui. É importante que, à medida que o capital de token cresce, o capital humano não se torne menos valioso. Ele apenas se torna mais valioso! Acredito que a iniciativa humana será o impulsionador do crescimento do capital de token. Os humanos definirão metas ambiciosas, conectarão pontos entre diferentes áreas, estabelecerão relacionamentos e identificarão os padrões mais importantes. Sem orientação humana, seu poder computacional está apenas girando em vazio.

Isso significa que a verdadeira oportunidade não está em escolher o melhor modelo, mas em construir ciclos de aprendizado sobre os modelos, permitindo que o capital humano e o capital em tokens se multipliquem. Você pode terceirizar uma tarefa, ou até mesmo um trabalho, mas nunca poderá terceirizar seu aprendizado. O futuro das empresas é permitir que esse aprendizado se multiplique entre humanos e IA. Isso exige uma nova abordagem arquitetural, permitindo que cada empresa construa sistemas de agentes que melhoram ao longo do tempo, mantendo ao mesmo tempo o controle sobre sua propriedade intelectual. As empresas devem ser capazes de substituir modelos "gerais" sem perder o conhecimento especializado dos "veteranos da empresa" incorporados em seus sistemas de aprendizado. Esse é o "teste" chave para seu controle e soberania na era futura.

Nadella abriu essa visão com um aviso:

O que não queremos ver é um mundo em que cada empresa de cada setor entrega seu valor a poucos modelos que devoram tudo. Se todo o valor for capturado apenas por poucos modelos, a economia política simplesmente não o tolerará. A sociedade não permitirá um futuro de IA que esvazie todo um setor.

Pense no que aconteceu na primeira fase da globalização: toda a economia industrial foi esvaziada por terceirização. À primeira vista, os números do PIB pareciam bons, mas o deslocamento foi real, e as consequências ainda são sentidas hoje. Não vamos permitir que essa dinâmica seja transportada para a era da IA, onde poucos sistemas de IA capturam todos os retornos econômicos, enquanto indústrias inteiras descobrem que seu conhecimento foi mercantilizado bem diante de seus olhos.

O problema com essa analogia é que a globalização realmente ocorreu e as economias industriais realmente foram esvaziadas. Isso pode não ser um aviso, mas uma profecia; não é à toa que Nadella está alertando, pois a Microsoft pode ser uma das vítimas. Da mesma forma, a necessidade econômica dos fabricantes de modelos é exatamente realizar isso.

Necessidade dos dados

Esses modelos — inclusive o Mythos — ainda não chegaram a esse ponto. Eles precisam, além de mais poder computacional, de mais e melhores dados. As melhorias nos modelos estão cada vez mais vindas do aprendizado por reforço; algumas podem ser sintetizadas, mas a alavanca mais poderosa para laboratórios de ponta é o uso no mundo real.

Acho que essa é a principal razão pela qual tanto a OpenAI quanto a Anthropic oferecem planos de assinatura com subsídios significativos. A SemiAnalysis estimou recentemente que um plano de US$ 200 permite acessar US$ 8.000 em tokens do Claude e US$ 14.000 em tokens do Codex. Claro, ambas estão competindo pela atenção de usuários e desenvolvedores, mas também estão disputando o acesso aos dados de uso real para aprimorar os modelos.

A Anthropic aumentou significativamente seu compromisso no Fable, anunciando que manterá todos os dados utilizados por 30 dias, mesmo para planos empresariais que anteriormente prometiam retenção zero de dados. A empresa afirma que não usará esses dados para treinamento, mas não implementou quaisquer medidas de garantia para assegurar que não o farão no futuro (por exemplo, armazenando os dados em terceiros). Se essa mudança na política (quando o Fable retornar) não causar uma grande perda de clientes, suspeito que seja apenas uma questão de tempo até que eles comecem a usar os dados: isso é muito valioso para seu objetivo final.

Observe também o ciclo virtuoso de movimento ascendente para os pontos de contato do usuário: quanto mais fluxos de trabalho forem concluídos diretamente com Claude ou Codex, mais dados cada empresa poderá retornar para o treinamento, tornando seus produtos mais poderosos e úteis, ampliando o número de fluxos de trabalho que podem atender e expandindo seu acesso aos dados.

Nadella enfatizou a importância desses dados no artigo, mas naturalmente acredita que eles devem ser independentes do modelo:

A empresa precisa transformar fluxos de trabalho, conhecimento de domínio e julgamentos acumulados em um sistema de IA que melhore com cada uso. Avaliações privadas devem capturar se o modelo realmente está melhorando nos resultados que são importantes para o negócio (não apenas em benchmarks externos!). O ambiente de aprendizado por reforço privado deve tornar o modelo mais forte com base em trajetórias reais dentro da organização. Sua base de conhecimento torna a memória institucional consultável e utiliza tokens de forma mais eficiente.

Este ciclo tornou-se a nova propriedade intelectual da empresa. Vejo-o como uma máquina de escalada. Diferentemente da maioria dos ativos, ele é composto por juros compostos. Cada fluxo de trabalho aprimorado gera sinais de treinamento melhores, acelerando a acumulação do conhecimento tácito exclusivo da empresa. As empresas que construírem isso no início terão uma vantagem difícil de replicar, independentemente de quaisquer novas capacidades individuais de modelos.

Este ciclo tornou-se o novo IP da empresa. Vejo-o como uma máquina de escalada. Diferentemente da maioria dos ativos, ele gera crescimento composto. Cada melhoria no fluxo de trabalho produz sinais de treinamento melhores, acelerando a acumulação de conhecimento tácito exclusivo da empresa. As empresas que estabelecerem essa capacidade cedo terão uma vantagem difícil de replicar, independentemente de como os modelos individuais possam melhorar no futuro.

No entanto, e se as empresas que obedecem às políticas de dados da Anthropic já puderem obter melhores resultados agora? Ou se as empresas existentes resistirem, deixando uma oportunidade para novas empresas—ou para os próprios fabricantes de modelos—superá-las no mercado? A Anthropic está realmente testando a determinação que Nadella chamou.

Reivindicações de poder

Em relação à política de retenção de dados do Fable/Mythos, isso nem sequer é a parte mais controversa do lançamento. Pelo contrário, a Anthropic declarou no lançamento que, se o Fable for usado para desenvolvimento de LLMs, reduzirá silenciosamente seu desempenho; o cartão do sistema afirma:

Também implementamos medidas de proteção relacionadas ao desenvolvimento avançado de LLMs. Como discutido na Seção 6.1 do nosso relatório de riscos de fevereiro de 2026, estamos preocupados com os riscos de acelerar o ritmo geral do desenvolvimento de IA, embora ainda não estejamos certos sobre a gravidade desses riscos. Em particular, nossa preocupação é — como escrevemos na época — "acelerar a construção de sistemas de IA poderosos, com riscos semelhantes aos do nosso sistema, por outros desenvolvedores de IA — sem necessariamente possuírem as medidas de proteção correspondentes."

Devido à capacidade recente dos modelos de acelerar seu próprio desenvolvimento, implementamos novas intervenções para limitar a eficácia do Claude em solicitações relacionadas ao desenvolvimento de LLMs de ponta (por exemplo, construir pipelines de pré-treinamento, infraestrutura de treinamento distribuído ou design de aceleradores de ML). Já era uma violação dos nossos termos de serviço usar o Claude para desenvolver modelos concorrentes, mas a aplicação dessas medidas de proteção evita acelerar os agentes mais dispostos a violar esses termos.

Ao contrário de nossas intervenções em segurança cibernética, bioquímica e tentativas de destilação, essas medidas de proteção são invisíveis para os usuários. O Fable 5 não recorrerá a outro modelo. Em vez disso, as medidas de proteção limitarão a eficácia por meio de métodos como modificação de prompts, vetores de orientação ou microajuste eficiente de parâmetros (PEFT). Essas intervenções não afetarão a grande maioria dos trabalhos de programação. Estimamos que afetarão cerca de 0,03% do tráfego, concentrando-se em menos de 0,1% das organizações. Quando essas intervenções entrarem em vigor, esperamos que tenham impacto mínimo sobre o comportamento do modelo, além de limitar sua eficácia no desenvolvimento de LLMs de ponta. O Claude ainda responderá às solicitações dos usuários de forma útil. Continuaremos a aprimorar a precisão dos métodos de detecção após o lançamento deste modelo.

A Anthropic revogou essa alteração — a Fable transferirá solicitações relacionadas a LLMs para o Opus 4.8 e informará os usuários sobre essa transferência — mas acho que a política original foi muito esclarecedora. Por um lado, na verdade não culpo a Anthropic por não querer ajudar concorrentes; por outro lado, deveria ser muito claro que a Anthropic acredita que ninguém, exceto eles mesmos, deveria criar LLMs de ponta.

O mais notável nesta política é que ela foi implementada apenas dois meses após o conflito entre a Anthropic e o Departamento de Guerra: enquanto este último desejava usar o Claude para qualquer finalidade legal, a Anthropic buscava impor controles mais rigorosos sobre armas de vigilância e autônomas. Essa redução representa tanto a capacidade quanto a disposição da Anthropic de ajustar silenciosamente seus modelos para alinhar-se às suas preferências políticas. Em outras palavras, a Anthropic validou ativamente algumas das principais preocupações dos críticos sobre ela como um risco na cadeia de suprimentos.

No entanto, a conclusão mais ampla tirada desse evento é que a Anthropic acredita que deveria ter a última palavra sobre como a Anthropic é usada; dado que eles acreditam que apenas eles deveriam desenvolver IA de ponta, na verdade eles consideram que apenas eles deveriam ter a última palavra sobre a IA em geral. Quando você combina esse entendimento com a afirmação da empresa de que a IA pode realizar todas as atividades econômicas, percebe-se que a liderança da Anthropic realmente deseja ter poder sobre tudo e sobre todos.

Narrativa de segurança

Claro, a Anthropic nunca expressaria isso de forma tão direta; em vez disso, a história é sobre segurança:

Espero que a Anthropic cada vez mais expõe as capacidades de seus modelos aos usuários finais por meio de endpoints cada vez mais personalizados para diferentes fluxos de trabalho, mesmo ao começar a restringir a API. Essa substituição do software e restrição de acesso serão feitas em nome da segurança, mesmo enquanto a Anthropic atende suas demandas econômicas de se aproximar dos usuários finais.

A explicação da Anthropic para a alteração significativa em sua política de retenção de dados é a segurança. Especificamente, a empresa afirma que manter todos os dados dos usuários por 30 dias é necessário para prevenir comportamentos de escape preocupantes para o governo dos Estados Unidos. Certamente consigo imaginar um futuro em que fatores de segurança os forcem também a treinar esses dados para melhor prevenir o uso malicioso.

A história de origem da Anthropic está enraizada na crença dos fundadores de que a OpenAI não levava a segurança suficientemente a sério; a empresa acreditava que apenas eles poderiam controlar a IA e, como se preocupavam unicamente com a segurança, tinham justificativa para tentar controlar todos os demais, incluindo o governo dos Estados Unidos.

Sobre esses motivos de segurança, o problema é que acho que eles são válidos porque, para a Anthropic, eles não são motivos. A empresa realmente acredita que é a única que acredita em inteligência superinteligente e, portanto, a única que se preocupa adequadamente com os riscos. Isso justifica uma decisão após outra, uma política após outra, um confronto após outro — que, para observadores externos, parecem uma estranha combinação de ceticismo e ingenuidade.

Comparação enorme com a OpenAI: Acho que uma maneira de entender como e por que a OpenAI perdeu sua liderança é que, nos anos seguintes ao lançamento do ChatGPT, a empresa estava em conflito interno, e seu antigo laboratório de pesquisa de repente foi encarregado de se tornar uma empresa de tecnologia de consumo inesperada; durante o processo da OpenAI de resolver esse conflito, ela perdeu grande parte de seu talento para empresas como a Anthropic.

Por outro lado, a Anthropic possui uma perfeita alinhamento entre talento, missão e negócios. A empresa pode vender aos pesquisadores a visão de criar deuses artificiais, cercada pelo prestígio de pessoas que se importam com os riscos e são suficientemente inteligentes para representar a humanidade diante desses perigos; e cada alteração de política resultante acaba sendo benéfica para os negócios, o que é a coincidência mais maravilhosa do mundo.

Respeito essa consistência, mas também a temo. Respeito porque é claramente muito eficaz; a analogia mais próxima é a Apple, que sempre envolve cada ação egoísta sob o pretexto de fazer o que é melhor para o usuário — e muitas vezes realmente o faz. A Anthropic faz o mesmo. No entanto, o que me preocupa é que permitir que pessoas certas de que sabem melhor construam um smartphone que eu possa aceitar ou rejeitar é uma coisa; permitir que elas construam superinteligências com potencial para igualar ou superar o poder de estados-nações ou até mesmo grandes corporações é muito mais preocupante. A história de pessoas inteligentes convencidas de que sabem o que os humanos precisam é suja, exatamente porque convenceram a si mesmas de que suas intenções eram boas, justificando ações que na realidade não eram.