Pesquisadores de cibersegurança criticam o Fable da Anthropic por bloquear trabalhos defensivos

A Anthropic lançou o Claude Fable 5 em 9 de junho, e a comunidade de cibersegurança já o considera inutilizável para o trabalho mais importante: encontrar e corrigir vulnerabilidades antes que atacantes o façam.

O novo modelo, a primeira versão disponibilizada publicamente da classe “Mythos” de sistemas de IA da Anthropic, vem com classificadores de segurança que redirecionam automaticamente consultas de alto risco para o mais antigo Claude Opus 4.8. Tópicos que acionam o recurso de fallback incluem cibersegurança, biologia, química e distilação de modelos. Para pesquisadores de segurança, isso significa que a ferramenta mais poderosa da linha essencialmente se recusa a interagir com suas atividades profissionais diárias.

O que o Fable faz e por que isso importa

Fable 5 compartilha suas capacidades fundamentais com o Claude Mythos 5, um modelo mais restrito que se mostrou notavelmente bom em identificar falhas de software. Durante os testes em abril de 2026, modelos da classe Mythos identificaram mais de 23.000 vulnerabilidades críticas em repositórios de código principais. A solução da Anthropic foi criar uma versão voltada para o público que mantém a inteligência geral, mas isola as arestas afiadas. A empresa afirma que mais de 95% das sessões do Fable 5 não exigem recorrer ao Opus 4.8.

Anúncio

Pesquisa de vulnerabilidades, testes de penetração e divulgação responsável exigem fazer exatamente os tipos de perguntas que os classificadores do Fable foram projetados para desviar. As reclamações dos profissionais de segurança centraram-se em uma tensão familiar: mecanismos de segurança que não conseguem distinguir entre intenção ofensiva e necessidade defensiva acabam penalizando os defensores.

O problema de acesso em dois níveis

A Anthropic parece estar desenvolvendo um modelo de acesso duplo. Usuários públicos recebem o Fable. Profissionais e organizações aprovados poderão, eventualmente, ter acesso ao programa completo Mythos, que mantém as capacidades ilimitadas.

O Fable 5 custa $10 por milhão de tokens de entrada e $50 por milhão de tokens de saída, aproximadamente o dobro do preço anteriormente associado ao Opus 4.8. Assim, os usuários estão pagando mais por um modelo que, para certos fluxos de trabalho profissionais, realiza menos. A disponibilidade atualmente está limitada a assinantes pagos.

Implicações mais amplas para IA e segurança

O Projeto Glasswing da Anthropic, que sustenta a classe Mythos, demonstrou em abril de 2026 que esses modelos podem descobrir sistematicamente vulnerabilidades em escala, identificando mais de 23.000 vulnerabilidades críticas durante os testes. Um classificador que marca todas as consultas de cibersegurança trata um hacker de estado-nacional e um pesquisador de bug bounty de forma idêntica, resultando em trabalho legítimo sendo bloqueado, enquanto atores maliciosos sofisticados provavelmente encontram contornos de qualquer forma.

Se a abordagem restritiva da Anthropic levar pesquisadores de segurança a plataformas concorrentes, a empresa corre o risco de perder uma base de usuários de alto valor sem melhorar significativamente os resultados de segurança.