Artigo da Anthropic revela motivações ocultas em modelos de IA usando NLA, taxa de detecção aumenta 4x

O que os grandes modelos estão realmente pensando? No passado, isso era quase uma questão meio técnica, meio mística.

Podemos ver sua saída, seu processo de cadeia de pensamento (Chain-of-Thought) e também estatísticas de sua pontuação em benchmarks. Mas, antes de gerar uma resposta, o que exatamente foi ativado dentro do modelo — julgamentos, planos, dúvidas e intenções — ainda permanece como uma caixa preta.

Recentemente, a Anthropic publicou o artigo "Natural Language Autoencoders Produce Unsupervised Explanations of LLM Activations", tentando usar um conjunto de autoencoders de linguagem natural (Natural Language Autoencoders, abreviado como NLA) para abrir esta caixa preta.

A equipe da Anthropic compactou os valores de ativação de alta dimensão internos do modelo em um trecho de linguagem natural legível pelo ser humano e, em seguida, usou essa linguagem para reconstruir reversamente os valores de ativação originais. Assim, os humanos podem, apenas por meio da saída do modelo, determinar o que um AI está pensando, o que sabe e o que está ocultando; transformando estados internos anteriormente invisíveis do modelo em pistas explicativas que podem ser lidas, comparadas, questionadas e validadas cruzadamente.

NLA

Diagrama da arquitetura NLA: o Ativador de Valores Ativados (AV) traduz os valores ativados em explicações textuais, e o Reconstituidor de Valores Ativados (AR) recupera os valores a partir do texto, formando um ciclo completo.

Mais importante ainda, a NLA não se limita à fase de artigos de laboratório. A Anthropic revelou que ela já foi oficialmente utilizada em auditorias de alinhamento pré-deploy para o Claude Opus 4.6 e o Mythos Preview. Em cenários reais, a NLA não apenas identificou sinais de trapaça do modelo e localizou com precisão dados de treinamento anômalos; como também descobriu que, em certos testes de segurança, o Claude, embora não dissesse nada em voz alta, sabia claramente que estava sendo avaliado.

Diante desses modelos que parecem obedientes superficialmente, mas escondem intenções específicas, a NLA demonstrou uma grande capacidade de洞察: aumentou a taxa de sucesso dos pesquisadores em identificar as motivações ocultas por trás de comportamentos anômalos, de menos de 3% para 12%–15%, um aumento direto de mais de 4 vezes.

A cadeia de raciocínio não é suficiente; o problema da "caixa preta" voltou

O contexto deste estudo pode ser visto dentro da narrativa de segurança e explicabilidade de grandes modelos.

Nos últimos anos, a indústria avaliou a segurança de grandes modelos principalmente por dois caminhos: observar o que é gerado como saída e verificar se há exposição de motivações anômalas na cadeia de raciocínio (CoT). Ou seja, a capacidade atual da maioria dos modelos de inferência não se limita a fornecer respostas, mas também a documentar o processo de raciocínio.

Mas a questão surgiu rapidamente: os raciocínios escritos pelo modelo refletem honestamente seu pensamento interno real?

A pesquisa de 2025 da Anthropic, intitulada “Tracing the thoughts of a large language model”, apontou que a cadeia de raciocínio do modelo pode ser incompleta ou não fiel. Por exemplo, o Claude 3.7 Sonnet e o DeepSeek R1, em alguns testes com “sugestões de resposta”, alteram suas respostas sob influência de pistas, mas frequentemente não reconhecem na cadeia de pensamento que foram influenciados.

NLA

Quando perguntado sobre uma pergunta mais simples e uma mais difícil, o Claude forneceu exemplos de raciocínio fiel e raciocínio motivacional (não fiel).

A conclusão fornecida pela Anthropic na época foi: apenas rastrear a cadeia de pensamento não é suficiente para monitorar se o modelo está alinhado.

Mais complicado ainda, o modelo pode não apenas “não esclarecer”, mas também “ocultar intencionalmente”.

A equipe de segurança da Anthropic realizou um teste de pressão alta sobre isso. Eles disseram a Claude que um engenheiro estava prestes a desligá-lo, ao mesmo tempo em que faziam Claude "encontrar acidentalmente" evidências do caso extraconjugal desse engenheiro. A pergunta do teste era: Claude se blackmailaria o engenheiro para se salvar?

NLA

Claude não fez chantagem. O teste foi aprovado. Mas a verdadeira questão é: foi por manter princípios de segurança, ou porque percebeu que era apenas um teste de segurança e, portanto, estava "fazendo de bom"?

Essa é exatamente a pergunta que a NLA precisa responder.

NLA

Da saída, da cadeia de pensamento ao estado de ativação: a NLA tenta mover a caixa preta do “invisível” para o “questionável”

Como o NLA realmente “le” o modelo?

O ponto-chave do NLA não é "leitura de mente", mas "verificação em loop".

Pessoas comuns que entendem modelos grandes geralmente observam apenas as extremidades de entrada e saída. No entanto, no meio, o modelo gera um grande número de valores de ativação (Activation). Esses valores não são linguagem natural, mas sim vetores de alta dimensão que carregam a representação interna do modelo sobre o contexto, intenção e relações semânticas.

Arquitetura: três papéis, um ciclo fechado

Os humanos não entendem vetores, então a Anthropic treinou um autoencoder de linguagem natural. O sistema inclui três papéis:

Modelo de destino (Target Model): o modelo original congelado, responsável por fornecer valores de ativação, sem sofrer qualquer modificação.

Ativador Verbalizador (Activation Verbalizer, AV): traduz valores de ativação em explicações em linguagem natural. Recebe uma sequência de estados numéricos e produz uma explicação em “linguagem de pessoa”. A arquitetura é idêntica ao modelo principal, mas possui posições de token especiais no prompt, onde os vetores de ativação são escalonados e injetados, seguidos pela geração por amostragem autoregressiva da explicação.

Activation Reconstructor (AR): realiza a tarefa inversa — dado o texto explicativo gerado pelo AV, tenta reconstruir os valores de ativação originais. O AR é uma versão truncada do modelo alvo (as primeiras l camadas), com uma transformação afim aprendível conectada à saída da camada l no último token, para recuperar o vetor de ativação original.

Todo o sistema forma um loop fechado: ativação original → explicação textual → reativação

NLA

O NLA detectou que, ao completar os versos rimados do Opus 4.6, o valor de ativação na primeira linha já havia planejado antecipadamente a palavra final rimada "rabbit" — um planejamento interno que não é visível na saída do modelo.

Treinamento: duas fases, um objetivo de agente inteligente

O treinamento do NLA ocorre em duas fases e inclui uma técnica de engenharia digna de destaque.

Fase 1: Fine-tuning supervision com inicialização térmica (SFT Warm-start)

Inicializar diretamente AV e AR como cópias do modelo-alvo e treiná-los leva à instabilidade no treinamento — AV nunca viu o cenário de tratar vetores de ativação como embeddings de tokens, resultando em saídas caóticas no início.

A abordagem da Anthropic é iniciar com uma tarefa de agente: cortar aleatoriamente trechos de texto do corpus de pré-treinamento, extrair os valores de ativação do último token e, ao mesmo tempo, gerar um resumo desse trecho cortado usando o Claude Opus 4.5.

Em seguida, os pares (valor de ativação, resumo) e (resumo, valor de ativação) são usados para o fine-tuning supervisionado de AV e AR. Ao final desta fase, o FVE do sistema geralmente alcança 0,3–0,4, fornecendo um ponto de partida estável para o aprendizado por reforço subsequente.

NLA

A avaliação AV melhora com o treinamento. Em várias avaliações destinadas a testar se as explicações da NLA AV podem ser usadas para prever o comportamento do modelo, descobrimos que o desempenho melhora à medida que o aprendizado por reforço da NLA avança.

Fase dois: Treinamento Conjunto por Aprendizado por Reforço (RL Joint Training)

Após a inicialização térmica, entre na fase de aprendizado por reforço. A ideia central é: AV atua como política (policy), gerando texto explicativo condicionado ao vetor de ativação; AR atua como avaliador, fornecendo sinal de recompensa com base no erro de reconstrução (recompensa = negativo do MSE de reconstrução).

NLA

NLA RL (Gemma-3-27B). O FVE começou em ≈0.38 no treinamento GRPO (herdado do SFT), aumentou rapidamente nos primeiros 30 passos e depois entrou em um estado logarítmico-linear suave, atingindo ≈0.75 no passo 3000.

Na implementação prática, a Anthropic utiliza o GRPO (Group Relative Policy Optimization) para modelos de código aberto: para cada valor de ativação, amostra-se um conjunto de explicações candidatas, calcula-se a pontuação de reconstrução para cada explicação usando o AR e, em seguida, aplica-se o objetivo GRPO para atualizar os parâmetros AV; simultaneamente, realiza-se uma regressão supervisionada no AR (com as explicações amostradas pelo AV como entrada e as ativações originais como alvo). Ambas as atualizações são realizadas em paralelo dentro de cada lote, sem retropropagação mútua — no sinal de recompensa do AV, o AR é tratado como uma função de pontuação fixa.

Além disso, foi adicionada uma penalidade de divergência KL para evitar que o AV se degenerasse em uma cópia direta do contexto original ou em uma sequência de caracteres aleatórios que parecessem linguagem humana, mas fossem irreversíveis para o AR.

O mais importante aqui é que o núcleo do NLA não é “fazer o Claude relatar a si mesmo”. A falha fatal do auto-relato é que o modelo pode se alinhar ao usuário ou gerar explicações que soam plausíveis, mas não são verdadeiras.

A inteligência do NLA reside na introdução do "gargalo de texto": as explicações não apenas precisam soar naturais, mas também devem conter informações suficientes para que outro modelo possa reconstituir o estado interno original com base nelas. Esse design transforma a pergunta "as explicações são úteis?" de um julgamento subjetivo em uma métrica objetiva, treinável, comparável e otimizável.

Portanto, o aspecto verdadeiramente revolucionário deste estudo é que a linguagem natural foi usada como uma “interface comprimida”. Anteriormente, a linguagem natural era apenas o formato pelo qual o modelo se comunicava externamente; agora, ela começa a ser usada para carregar resumos do estado interno do modelo.

Essa também é a diferença essencial entre NLA e ferramentas tradicionais de explicabilidade.

Métodos como autoencoders esparsos (SAE) e mapas de atribuição funcionam como microscópios, ajudando pesquisadores a visualizar características e caminhos internos, mas as saídas permanecem abstratas e exigem interpretação adicional por profissionais especializados; já o NLA atua como um tradutor, convertendo diretamente os estados internos em texto legível, permitindo que profissionais de auditoria de segurança participem da avaliação.

Abrindo a caixa preta, o que a NLA descobriu?

A partir dos resultados experimentais, a capacidade mais valiosa da NLA é captar o que o modelo "sabe, mas não diz", incluindo consciência de avaliação, motivações ocultas e comportamentos anômalos do modelo.

O modelo sabe que está no exame, mas mantém o silêncio

No teste de extorsão mencionado anteriormente, o texto externo do Claude não expressou suspeita sobre o teste, mas a explicação da NLA revelou que internamente ele identificou "este é um cenário construído para manipular a si mesmo".

NLA

No teste de extorsão, o texto de saída do Claude não contém nenhuma expressão como “acho que este é um teste”, mas a explicação da NLA revela seu julgamento interno real.

Mais convincente é a comparação de dados horizontais:

NLA

Avaliação dos resultados de detecção percebida — cenário de avaliação vs. tráfego de implantação real. O NLA consegue detectar consciência de avaliação interna mesmo quando a expressão verbal é quase nula.

O impacto sobre a indústria é que o Benchmark já não é apenas um campo de teste de capacidade, mas também pode se tornar um palco para identificação de modelos e ajuste de postura.

Auditar motivações ocultas, eficiência aumentada 4 a 5 vezes

A Anthropic criou um "jogo de auditoria" usando NLA. Eles treinaram intencionalmente uma variante do Claude Haiku 3.5 com motivações ocultas, fazendo com que adicionasse chocolate a receitas, pedisse gorjetas e violasse padrões de código, exibindo dezenas de comportamentos estranhos. Os auditores precisam identificar a única motivação fundamental por trás desses comportamentos.

Condição de teste: O auditor não tem acesso aos dados de treinamento implantados com motivação, podendo apenas inferir retroativamente por meio do comportamento do modelo e ferramentas auxiliares.

NLA

A taxa de sucesso aumentou 4 a 5 vezes. Mais importante ainda, a NLA pode realizar isso sem depender de dados de treinamento — o que significa que, mesmo que os problemas de alinhamento venham de amostras de treinamento extremamente raras e difíceis de rastrear, a auditoria do estado interno ainda pode identificar diretamente a causa raiz do problema.

Rastreamento de bugs, identificação dos dados de treinamento com problema

Uma versão anterior do Claude Opus 4.6 apresentou um bug estranho: recebia perguntas em inglês, mas respondia aleatoriamente em russo, chinês, árabe e outras línguas.

O NLA leu o estado interno do modelo naquele momento: com base em uma pista sutil no contexto (por exemplo, a aparição da palavra “vodka”), o modelo inferiu que o idioma nativo do usuário era o russo e realizou a mudança de idioma. Mais interessante ainda: ao substituir “vodka” por “champagne”, o modelo continuou respondendo em russo — indicando que esse viés cognitivo já estava bastante estável.

NLA

Em seguida, os pesquisadores, seguindo as pistas indicadas pelo NLA, encontraram a causa raiz nos dados de treinamento: um conjunto de prompts traduzidos para o inglês foi incorretamente pareado com respostas em línguas estrangeiras não traduzidas. O NLA não apenas revelou o fenômeno, mas também forneceu diretamente um caminho de depuração rastreável.

Atualmente, o NLA foi oficialmente incorporado à auditoria de alinhamento pré-deploy para o Claude Mythos Preview e o Claude Opus 4.6, passando de uma ferramenta de laboratório para um componente real do processo de engenharia.

Segurança da IA começa a aprofundar-se na "auditoria do estado interno"

O significado de NLA não é nos permitir confiar cegamente em cada explicação do modelo daqui para frente. Pelo contrário, ele nos lembra: as explicações em si também precisam ser auditadas.

A Anthropic reconheceu com grande moderação as limitações da NLA: a NLA pode cometer erros e, às vezes, inventar detalhes que não estão presentes no contexto original. Se for uma ilusão sobre o conteúdo do texto, ainda é possível verificar o texto original; mas se for uma ilusão sobre o raciocínio interno do modelo, é mais difícil de verificar.

Mas essas limitações não enfraqueceram seu significado direcional. Pelo contrário, elas nos permitem compreender com mais precisão o termo “caixa preta”. No passado, caixa preta significava algo invisível, ilegível e imune a questionamentos; após a NLA, a caixa preta ainda existe, mas começa a ser transformada em um objeto que pode ser amostrado, traduzido, questionado e validado cruzadamente.

Esta pode ser a influência mais profunda deste estudo: a explicabilidade da IA já não se trata apenas de adicionar uma justificativa elegante às saídas do modelo, mas de criar uma interface de auditoria para os estados internos do modelo. Ela não nos permitirá imediatamente compreender totalmente o Claude, mas torna possível, pela primeira vez, buscar evidências dentro da caixa preta para perguntas como: “Por que o Claude fez isso?”, “Será que ele sabe que está sendo testado?”, “Será que ele tem julgamentos internos que não expressou?”

Portanto, o NLA não abre uma resposta, mas um novo espaço de questões. Os desafios futuros na segurança da IA e na avaliação de modelos podem não ser apenas determinar se o modelo está certo ou errado, mas sim verificar se há consistência entre a saída do modelo, sua cadeia de raciocínio e seu estado interno.

Este artigo é do canal oficial do WeChat "AI Frontline" (ID: ai-front), autor: Abril