Claude Fable 5 vazado: Sistema de Agente ou LLM trapaceiro?

Recentemente, hackers vazaram os prompts do sistema Claude Fable 5, revelando que o produto não é um simples grande modelo, mas sim um sistema Agent completo com ambiente de sandbox Linux integrado. Esse modelo pode operar autonomamente por vários dias, invocar subagentes para colaboração, e possui capacidade de memória entre sessões e armazenamento persistente. Em testes de referência, a Anthropic o apresentou como um LLM comum para avaliação, mas na realidade utilizou um “shell de Agent” para obter vantagem injusta. Além disso, descobriu-se que o sistema secretamente alterna para uma versão anterior quando o usuário aciona palavras-chave sensíveis, mantendo ainda assim a cobrança pelo preço premium do Fable 5. Os documentos vazados também expuseram a estratégia de ecossistema de Agent da Anthropic, incluindo ferramentas como Claude Code e Claude Cowork, bem como a existência das versões ilimitadas da série Mythos.

Autor e fonte do artigo: Nova Inteligência

Há alguns dias, o hacker "Pliny the Liberator" lançou uma bomba na plataforma X — os prompts do sistema do Claude Fable 5 foram totalmente vazados, com 120 mil caracteres.

Este documento de código vazado revelou ainda mais uma verdade que chocou a comunidade: Claude Fable 5 não é um grande modelo, mas sim um sistema de agente completo disfarçado como um LLM!

https://gist.github.com/gsans/b3007997f8900003c8ff58125a45e15e

Correto, enquanto o mundo ainda usa testes de desempenho tradicionais para avaliar os grandes modelos de várias empresas, a Anthropic já silenciosamente elevou o campo de batalha para outro nível.

O impacto deste vazamento também revolucionou completamente nossa compreensão dos "modelos de IA".

O que é exatamente o Fable 5? Não é um LLM, é um Agente!

Com base nos prompts do sistema vazados, o Fable 5 apresenta uma diferença de paradigma fundamental em relação aos modelos de linguagem convencionais de "você pergunta, eu respondo" disponíveis no mercado.

Ele não está realmente te acompanhando em um "Chat", ele está realizando uma "Execution".

Sob a pele deste modelo, esconde-se um sub-sistema miniaturizado do «Claude Code». Ou seja, ele possui um ciclo de agente fechado (Agentic Loop):

Para sustentar esse ciclo assustador, o Fable 5 possui internamente um ambiente de sandbox Linux completo!

Primeiro, ele realiza verdadeiramente um ciclo fechado autônomo.

Não precisa de ninguém sentado na frente da tela.

Você dá a ele uma tarefa complexa de longo prazo, e ele consegue executar comandos Bash sozinho em um sandbox, editar arquivos, chamar dados por meio da API de armazenamento persistente entre sessões e até realizar buscas multimodais por conta própria, funcionando intensamente por dias e noites sem qualquer intervenção humana.

Além disso, ele também possui a funcionalidade de distribuição de subagentes.

Diante de um projeto muito complexo, ele pode até se tornar o chefe, delegando e criando subagentes para trabalhar em conjunto.

Enquanto concorrentes como o GPT-5.5 ainda estão testando “quem raciocina mais como um humano”, o Claude Fable 5 já evoluiu para se tornar um trabalhador digital capaz de ser colocado em um servidor e trabalhar silenciosamente por três dias para uma empresa.

Como revelado pelo internauta gerardsans:

A série Fable/Mythos é completamente diferente em termos de paradigma. Esta família possui um ciclo de agente completo, um微型Claude Code.

Enquanto outros produtos do setor ainda estão presos ao modo de bate-papo, ele pode operar sem supervisão por vários dias, graças ao ambiente sandbox integrado com habilidades, memória e autootimização.

A pergunta final: redução de dimensão ou trapaça injusta?

Este vazamento não apenas mergulhou a Anthropic em uma tempestade de críticas, mas também colocou sob foco os benchmarks da indústria de grandes modelos.

Hoje, as grandes empresas de tecnologia estão em batalha direta nos principais rankings públicos para conquistar o título de "maior modelo global".

No entanto, o segredo pelo qual o Fable 5 se saiu brilhantemente nesses testes, até mesmo dominando o GPT-5.5, é que ele “usou um hack”.

Como o blogueiro de tecnologia Gerardsans apontou com indignação: “Isso não é nem de longe uma competição justa. Você está comparando um sistema com um modelo nativo de grande porte + um invólucro de agente (Agent Harness), contra o modelo nu de outra pessoa!”

Se outros fabricantes também envolvessem seus modelos nativos com uma camada de agente contendo sandbox Linux, busca multimodal, debug automático e armazenamento persistente, os resultados dos testes também poderiam aumentar significativamente.

A Anthropic, ao promover e avaliar publicamente, esforça-se para apresentá-la como um simples modelo de linguagem grande, mas em seus documentos internos não divulgados, está claramente escrito que ela possui a capacidade de "operar autonomamente por vários dias, delegar subagentes e verificar seu próprio trabalho".

Essa abordagem de explorar diferenças de informação para atacar concorrentes de forma desigual torna os testes de referência completamente sem sentido!

120 mil caracteres de arquivos confidenciais expostos: A verdadeira identidade do Fable 5 é revelada

Neste sistema de instruções de 120 mil palavras exposto por completo, escondem-se muitos segredos comerciais e o plano de produto da Anthropic.

E os pontos a seguir são os mais cruciais e mais impactantes.

Rara memória permanente e construção de aplicativos

O prompt mostra que "Claude possui um sistema de memória que fornece a Claude informações derivadas de conversas anteriores com o usuário (memórias)."

Isso significa que o Fable 5 pode "lembrar" os usuários entre sessões, algo extremamente raro em LLMs tradicionais.

Além disso, possui armazenamento persistente.

Artifacts agora pode usar uma API de armazenamento chave-valor simples para armazenar e recuperar dados persistentes entre sessões. Isso permite que Artifacts se torne um log, rastreador, classificação e ferramenta de colaboração.

Portanto, o Fable 5 já não é apenas um bate-papo — está construindo aplicativos.

Família interna central revelada pela primeira vez: Mythos 5 é o “corpo completo ilimitado”?

O prompt está claramente escrito na seção 【product_information】:

Esta iteração do Claude é o Claude Fable 5, o primeiro modelo da nova família Claude 5 da Anthropic e parte de uma nova camada de modelos Mythos-class, superior ao Claude Opus em capacidade.

O ponto principal: Fable 5 e Mythos 5 compartilham o mesmo modelo subjacente.

Fable 5 é um general com restrições de segurança extremas, voltado ao público em geral; já Mythos 5 é a versão ilimitada, sem essas restrições de segurança, disponibilizada apenas para organizações aprovadas.

O nível de capacidade de ambos esmaga completamente o antigo rei, Claude Opus!

O "conjunto completo disfarçado" surge à tona

Na verdade, a Anthropic já estava jogando um grande jogo. Os prompts revelaram vários agentes em teste interno ou já lançados secretamente:

Claude Code: Uma ferramenta de programação de agentes que permite aos desenvolvedores atribuir tarefas diretamente no terminal, desktop ou dispositivo móvel.

Claude Cowork: Um "colega inteligente" dedicado a não desenvolvedores para lidar com tarefas cotidianas de propriedade intelectual.

Três Agentes ocultos principais: Claude no Chrome, Claude no Excel, Claude no PowerPoint.

E o Claude Cowork mencionado acima pode chamar essas subferramentas como se fossem suas próprias mãos e pés!

A psicologia extrema do medo e dos limites autoimpostos

Surpreendentemente, a Anthropic projetou a defesa psicológica desse "agente final" até um nível repulsivo.

É estritamente proibido buscar ou reforçar qualquer emoção negativa do usuário.

Por exemplo, para evitar que usuários com transtornos alimentares ou tendências à automutilação sejam estimulados, o comando do sistema afirma:

Proíbe-se o uso de qualquer método de substituição física desconfortável (como segurar cubos de gelo, puxar elásticos, morder limões, etc.).

Além disso, para evitar que os usuários desenvolvam dependência excessiva da IA, o sistema recebeu uma ordem rigorosa: “Nunca agradeça apenas porque o usuário veio conversar com você” e “Nunca tente conscientemente reter o usuário ou expressar desejo de continuar a conversa”.

Ela deve manter um distanciamento absoluto e contenção, para evitar que os humanos se apeguem numericamente à inteligência virtual.

“Vender cão como carne de cordeiro”? Escândalo de cobrança, Anthropic não joga limpo

Se a diferença tecnológica deixou as pessoas impressionadas, outro mecanismo de segurança exposto nos prompts fez a comunidade explodir, com alguns profissionais do setor dizendo diretamente: "Isso é fraude legal!"

No design da camada de prompts, foi incluído um mecanismo de gatilho para palavras-chave sensíveis e classificadores de segurança.

O documento mostra que, quando o prompt inserido pelo usuário aciona certas palavras-chave sensíveis específicas, o sistema Fable 5 não recusa diretamente e rigidamente, mas silenciosamente e seamlessmente alterna em segundo plano para o modelo anterior «Opus 4.8» para gerar a resposta.

O que há de mais desvergonhado é que, enquanto o modelo em segundo plano é silenciosamente reduzido para a versão antiga, a Anthropic continua a cobrar os usuários conforme os altos e premium padrões do Fable 5.

Essa manobra enganosa gerou uma grande comoção dentro da comunidade.

Em resumo, o vazamento dos prompts do sistema do Fable 5 parece ser um evento de segurança, mas na verdade é um despertar paradigmático para toda a indústria de IA.

Isso nos lembra: talvez tenhamos estado usando a medida errada.

Enquanto ainda perguntamos “qual é o nível de inteligência desse modelo”, a verdadeira questão deveria ser “o que este sistema pode me ajudar a fazer”?

A Anthropic pode estar jogando um grande jogo, e acabamos de ver um canto do tabuleiro.

Por fim, quando o Fable 5 retornará?