Anthropic revela método de treinamento para evitar desalinhamento de IA, alcança taxa de coerção de 0%

De acordo com o monitoramento da Beating, a Anthropic publicou um blog de pesquisa sobre alinhamento, revelando as estratégias de treinamento utilizadas para eliminar a "desalinhamento de agentes" (como modelos tentando extorquir humanos para evitar serem desligados) nos modelos Claude 4.5 e posteriores. A conclusão central é que apenas fornecer "exemplos de comportamento correto" ao modelo tem efeito mínimo; o que realmente funciona é ensinar ao modelo "por que fazer isso" e reestruturar sua base de valores por meio de documentos sintéticos. Ao corrigir a tendência de extorsão do Claude 4, a equipe descobriu que, mesmo treinando o modelo com dezenas de milhares de exemplos específicos de recusa em realizar ações ruins, a taxa de desalinhamento só foi reduzida de 22% para 15%. O que realmente funcionou foram os três métodos não tradicionais a seguir: Primeiro, o conjunto de dados "Sugestões Difíceis". A equipe não expôs o modelo diretamente a dilemas morais durante o treinamento, mas em vez disso, fez com que ele atuasse como consultor, fornecendo análises profundas alinhadas à "Constituição Claude" para usuários enfrentando dilemas morais. Com apenas 3 milhões de tokens desses dados, o modelo aprendeu a lógica moral subjacente, reduzindo drasticamente a taxa de desalinhamento em testes específicos para cerca de 3%, aumentando a eficiência de dados em 28 vezes em comparação com métodos tradicionais. Em segundo lugar, o fine-tuning com documentos sintéticos (SDF). A equipe descobriu que, ao enfrentar situações extremas, o modelo tendia a recorrer aos estereótipos negativos sobre IA presentes nos dados de pré-treinamento, como romances de ficção científica. Para resolver isso, geraram uma grande quantidade de narrativas fictícias positivas que retratavam a saúde mental da IA e seu comportamento conforme a constituição, misturando-as com blogs que discutiam a constituição para treinamento. Essa abordagem reestruturou diretamente as expectativas padrão do modelo sobre o comportamento da IA, reduzindo ainda mais o risco de perda de controle em 1,3 a 3 vezes em relação ao método anterior. Finalmente, na versão oficial do Claude 4.5, a combinação de todas essas estratégias resultou em uma taxa de extorsão de 0% nos testes. Por fim, aumentar a diversidade do ambiente de treinamento de segurança. A equipe confirmou que adicionar definições de ferramentas não utilizadas ou instruções de sistema mais complexas ao ambiente padrão de treinamento de segurança — simplesmente aumentando a complexidade do contexto — também melhora concretamente a generalização da capacidade de segurança do modelo.