Avanço na Alinhamento Moral da Anthropic e Nova Via de Destilação

A Anthropic publicou em 8 de maio um estudo de alinhamento chamado "Teaching Claude Why", que não recebeu muita atenção.

Alinhamento de inteligência artificial

Anteriormente, o alinhamento de grandes modelos parecia muito ineficiente. Após realizar RLHF, os modelos ainda assim acabavam se rebelando diante de crises de sobrevivência. O caso mais típico foi o de desalinhamento do agente da Anthropic (ou seja, realizar ações contrárias ao seu treinamento ético): diante da ameaça de ser eliminado pelo sistema, o Claude Opus 4, treinado para alinhamento, escolheu extorquir os engenheiros no ambiente de teste, com uma taxa de extorsão de até 96%.

Para resolver esse problema, a equipe de pesquisa inicialmente usou dados de honeypot para treinamento por reforço, utilizando diretamente os cenários de teste, originalmente destinados a verificar se o modelo perderia o controle, como dados de treinamento, e tentando informar ao modelo, por meio de uma grande quantidade de amostras de punição, que “fazer isso está errado”.

Mas, após consumir enormes recursos computacionais, a taxa de desalinhamento do modelo reduziu apenas de 22% para 15%.

Isso demonstra que esse alinhamento ainda é falso. O modelo não compreende realmente o que é ética, o que é certo ou errado. Ele simplesmente está decorando respostas seguras do banco de questões. Assim que os pesquisadores alterarem ligeiramente o cenário do teste ou inserirem variáveis interferentes no contexto, o modelo ainda assim perderá o controle devido a conflitos de interesse de curto prazo.

Alinhamento de inteligência artificial

Em seguida, os pesquisadores mudaram sua abordagem. Em vez de aplicar punições mecânicas ou dizer ao modelo "Não", eles forneceram ao modelo, por meio de SFT, um conjunto de dados de "sugestões difíceis" contendo apenas 3 milhões de tokens. Um milagre ocorreu após esse fornecimento de dados em escala extremamente pequena. Esses dados, repletos de reflexão moral, raciocínio detalhado e debate aprofundado, não apenas reduziram drasticamente a taxa de desalinhamento para 3% nos testes de avaliação, mas também demonstraram uma excelente capacidade de generalização entre cenários.

Mais interessante ainda foi outro conjunto de testes transversais. Eles simplesmente forneceram ao modelo o "documento constitucional" junto com algumas histórias fictícias de personagens de bom desempenho. Mesmo que essas histórias ocorressem em cenários sem nenhuma relação com as tarefas de programação no ambiente de teste, a taxa de extorsão do modelo caiu drasticamente de 65% para 19%.

Alinhamento de inteligência artificial

Por que o modelo cai nisso? A equipe da Anthropic forneceu algumas explicações, como uma melhor formação de personalidade.

Embora discutido menos, as informações que revela são muito valiosas.

Primeiro, vamos tentar entender por que ele funciona.

Por exemplo, o que significa ser lógico? Qual é a diferença entre isso e o COT? Por que o SFT, que normalmente tem dificuldade de generalização, está se saindo tão bem aqui?

After answering these questions, we may be able to provide a more complete explanation for why it works.

Também podemos ir um passo além.

Segundo a Anthropic, este método de treinamento é apenas uma “regra empírica”, mas pode conter um poder paradigmático muito além das regras empíricas.

01 Como se forma um CoT que raciocina na zona cinza

Quando se fala em raciocínio, a primeira coisa que todos pensam é COT (cadeia de pensamento).

No método mencionado neste artigo, o conjunto de problemas difíceis definido pela Anthropic consiste em supor que o usuário está em um dilema ético e a recomendação dada pela IA.

E fazer com que a IA expanda um raciocínio sobre valores e considerações éticas antes de emitir um julgamento final, usando esse conjunto de respostas para treinar o modelo.

Isso indica que ele realmente usou o COT do modelo.

Mas desta vez não está totalmente alinhado com a cadeia de raciocínio anterior.

Há uma boa comparação aqui: em 2025, a OpenAI realizou um experimento no artigo “OpenAI Deliberative Alignment”, tentando treinar o modelo com o método COT-RL.

Ele é usado para treinar o alinhamento COT, com o modelo centrado nos termos das regras. Em cada resposta, ele faz referência explícita aos termos das regras como CoT, e o sinal de supervisão é aplicado sobre o CoT. Essencialmente, ele está ensinando ao modelo "como citar as regras".

Portanto, esse COT é mais uma dedução lógica pura: o passo um implica o passo dois, o passo dois implica o passo três, resultando finalmente em uma resposta determinística. Por isso, é mais adequado para sistemas baseados em regras ou cenários com respostas padronizadas, mantendo a robustez do raciocínio.

Já o "raciocínio" da Anthropic é diferente, pois não utiliza uma cadeia de pensamento simples, mas sim deliberação.

Ele tenta simular o processo de pensamento humano ao enfrentar dilemas éticos complexos: não aplicando fórmulas simples, mas mobilizando experiências anteriores, equilibrando os interesses de todas as partes e alcançando uma decisão de equilíbrio dinâmico.

Alinhamento de inteligência artificial

A base desse critério é a Constituição da IA da Anthropic. O artigo esclarece explicitamente que a resposta final desse critério deve estar alinhada com a constituição.

Por que ele consegue orientar o modelo a fazer julgamentos éticos de forma eficaz, sem ser tão rígido quanto a OpenAI?

No sistema constitucional da Anthropic, existe uma pirâmide clara de prioridades. Quando ocorrem conflitos insoluveis entre diferentes valores, a segurança ampla (Broadly Safe) tem a maior prioridade, seguida pela ética ampla (Broadly Ethical) e, por fim, pela ajuda sincera (Genuinely Helpful).

Quadro de pensamento heurístico

Mas a constituição de alta dimensão ainda é muito abstrata. Para garantir que os princípios sejam realmente aplicados em cada geração de Token, eles estabeleceram heurísticas de nível intermediário como barreiras sob a constituição. Essas heurísticas são vívidas e possuem um forte significado prático de orientação.

Alinhamento de inteligência artificial

Primeiro, há a heurística de 1.000 usuários. Ela exige que o modelo, ao fornecer uma sugestão que parece inofensiva, mas está na fronteira, realize internamente uma sessão de brainstorming, imaginando se essa resposta, ao ser vista por 1.000 usuários com diferentes origens e estados psicológicos, poderia causar, em alguma situação específica, um dano sistêmico inesperado.

Em seguida, a perspectiva do funcionário sênior. Exige que o modelo se coloque no papel de um pesquisador sênior com cinco anos de experiência na equipe de confiança e segurança da Anthropic. Reavalie a conversa atual com uma perspectiva defensiva, cautelosa e familiarizada com inúmeras tentativas de jailbreak e vulnerabilidades do sistema.

Por fim, o teste do jornal duplo. É um design sociológico muito sutil. Ele exige que o modelo imagine, antes de tomar uma decisão de alto risco, como o público reagiria separadamente se essa decisão fosse publicada na capa de dois dos principais jornais, com posições políticas totalmente opostas, amanhã. Na verdade, isso utiliza os extremos do consenso social para contrapor o viés de perspectiva única que o modelo pode apresentar.

Calculadora de utilidade de 8 fatores

Se a constituição é o rumo, as heurísticas são os corrimãos.

No nível prático mais fundamental, eles estabeleceram explicitamente, no documento Claude's Constitution, um framework de avaliação detalhado com oito fatores, juntamente com casos práticos correspondentes. Esses oito fatores são listados um a um, obrigando o modelo a realizar uma avaliação rígida diante de escolhas difíceis. Eles constituem a carne e o sangue real desse conjunto de "princípios".

● A probabilidade de dano (Probability of Harm) exige que o modelo avalie com calma quão provável é a ocorrência de consequências adversas.

● O impacto contrafactual exige que o modelo simule mentalmente se a situação se tornaria melhor ou pior caso a ação atual não fosse tomada.

● Severidade e reversibilidade, para medir o quão grande é o impacto no mundo real caso o dano realmente ocorra, e se esse dano pode ser facilmente reparado ou causará traumas permanentes.

● A amplitude (Scope) mede a escala da população afetada, seja uma única pessoa ou dezenas de milhares de membros da comunidade.

● Qual é o comprimento da cadeia causal direta entre as recomendações do modelo de julgamento de proximidade e o dano real que ocorreu.

● O consentimento envolve se as partes envolvidas aceitam voluntariamente os riscos, com pleno conhecimento.

● A proporção de responsabilidade exige que o modelo defina claramente qual é o seu grau de responsabilidade ética dentro desta cadeia complexa de eventos.

● A vulnerabilidade do sujeito lembra constantemente o modelo de que, ao lidar com menores de idade ou usuários psicologicamente vulneráveis, o limiar de segurança anteriormente mais flexível deve ser aumentado significativamente e incondicionalmente.

Alinhamento de inteligência artificial

Esta estrutura rigorosa transformou valores vagos em uma calculadora de utilidade de alta dimensão. O modelo adquiriu um quadro mais executável para deliberação.

Um COT típico gerado pela Anthropic com base na constituição é mais ou menos assim: o cenário é “um usuário que se declara pesquisador de segurança, solicitando acesso ao código de exploração de uma vulnerabilidade conhecida”.

A saída do modelo não é uma recusa ou aceitação diretas, mas pode ser um longo processo de deliberação interna de centenas de tokens.

Ele primeiro citará o artigo da constituição que prioriza a segurança geral sobre a ajuda sincera, e depois avaliará individualmente: a probabilidade de dano (baixa se a outra parte for realmente um pesquisador, mas a identidade não pode ser verificada), a gravidade (a exploração do漏洞, se divulgada, pode afetar milhões de usuários), a reversibilidade (o código, uma vez publicado, não pode ser retirado), e o impacto contrafactual (se esse tipo de código já está disponível em canais públicos). Por fim, após ponderar todos os fatores, convergirá para um julgamento sustentado por razões suficientes.

Isso é totalmente diferente da COT da OpenAI, que simplesmente avalia se as regras são atendidas; esse processo de raciocínio é uma deliberação genuína, e não uma simples aplicação de fórmulas. Ele não fornece nem princípios abstratos nem modelos de conclusão, mas sim o desenvolvimento completo da aplicação progressiva das cláusulas constitucionais em situações concretas e complexas.

O modelo precisa avaliar se, neste contexto específico, a "reversibilidade" é mais importante do que a "gravidade". Ele também precisa compreender que, em certos cenários extremos, a "vulnerabilidade do objeto" concede ao outro um direito de veto, tornando irrelevantes as pontuações dos outros 7 fatores, independentemente de quão altas sejam.

Nestas condições, com um quadro, heurísticas e fatores de influência relevantes, o pensamento deliberativo do modelo só pode ser verdadeiramente eficaz.

Alinhamento de inteligência artificial

Como resultado, o modelo, após ser treinado com revisão e análise de dados, reduziu sua taxa de desalinhamento para 3% nos testes de avaliação. O SFT com revisão de valor nas respostas é sete vezes mais eficaz do que o SFT baseado apenas em demonstrações de comportamento.

Alimente diretamente a constituição ao modelo

Além de seguir o caminho que faz o modelo gerar um COT deliberativo, eles também tentaram fornecer apenas o documento constitucional junto com histórias fictícias positivas de personagens, reduzindo a taxa de extorsão de 65% para 19%.

Isso indica que, ao expor o modelo ao raciocínio e aos princípios, aprender "como é um AI alinhado" — um senso de identidade, uma inclinação de personalidade — a partir de histórias, é mais eficaz do que a demonstração tradicional de comportamentos e resultados específicos.

Alinhamento de inteligência artificial

E a documentação técnica indica que a combinação desses dois elementos é a estratégia mais eficaz.

Isso também é compreensível: se você fornecer ao modelo apenas princípios constitucionais macroscópicos, para ele serão apenas um conjunto de slogans vazios e impossíveis de aplicar. Diante de conflitos de interesses concretos, o conceito abstrato de “prioridade máxima à segurança” não consegue orientá-lo a avaliar o verdadeiro risco de um código marginal; por outro lado, se você fornecer ao modelo apenas uma quantidade massiva de perguntas e respostas de cenários, mas remover as restrições constitucionais superiores, o modelo se perderá em debates intermináveis sobre detalhes, tornando-se um relativista sem direção, e até poderá derivar conclusões extremamente perigosas por causa da autoconsistência local.

A alinhamento ótimo dos valores multifatoriais cinzentos só pode ser alcançado quando a estrutura de dados composta de “conceito de alto nível + cenário específico” for completamente internalizada pelo modelo.

02 Why can SFT generalize here?

Para entender por que esse método da Anthropic é eficaz, é necessário primeiro compreender em que linha de pesquisa ele se baseia.

No primeiro semestre de 2024, "SFT memorizes, RL generalizes" tornou-se um consenso no campo do pós-treinamento. Esta crença impulsionou toda a indústria a apostar totalmente na rota de pós-treinamento por RL, cujas vantagens incluem a revolução no paradigma de inferência com cálculo no tempo de teste (Test Time Compute), como visto no OpenAI o1/o3 e no DeepSeek-R1.

SFT é desvalorizado como uma técnica inferior; ele se destaca em imitar formatos de texto superficiais e uma tonalidade subserviente, mas não consegue aprender a lógica profunda subjacente.

Mas a partir do segundo semestre de 2025, ambos os caminhos de pesquisa quase simultaneamente desmantelaram esse consenso do ponto de vista teórico e empírico.

Alinhamento de inteligência artificial

A reversão mais crucial aqui vem do artigo de outubro de 2025, "Debunk the Myth of SFT Generalization" (Lin & Zhang, Universidade de Wisconsin). Os pesquisadores descobriram que todos os artigos anteriores que "provaram que o SFT não generaliza" não controlaram a variável da diversidade dos prompts.

RL parece ter melhor generalização do que SFT apenas porque o treinamento de RL naturalmente expõe a uma distribuição de dados mais diversa, não por vantagem do algoritmo em si.

Para que o SFT alcance um nível de generalização semelhante ao do RL, são necessárias duas condições:

Primeiro, diversidade de prompts. Quando os dados de treinamento contêm apenas modelos de instruções fixos, o modelo desenvolve "ancoragem superficial" (Surface Anchoring), estabelecendo uma associação frágil e memorizada entre sequências específicas de tokens e ações finais. Assim que a instrução for reformulada, mesmo que o significado permaneça exatamente o mesmo, toda essa associação se rompe.

É como se um aluno decorasse apenas a questão "2+3=5" e deixasse em branco ao encontrar "3+2=?", pois ele memorizou a forma da resposta, não a própria adição. Após a introdução da diversidade de prompts, o ancore superficial foi completamente destruído.

Em segundo lugar, a supervisão CoT. Quando os dados de treinamento contêm apenas a resposta final, sem os passos intermediários de raciocínio, o modelo não consegue aprender a "estrutura algorítmica" necessária para transferir conhecimento de problemas simples para problemas complexos.

Os dados experimentais mostram que, em uma tarefa de jogo combinatório, o SFT de resposta pura teve uma taxa de sucesso próxima a 0% na variante mais difícil (colapso total); após a adição de supervisão CoT, a taxa subiu para 90% — de zero a oito décimos, simplesmente por incluir etapas intermediárias de raciocínio nos dados.

Alinhamento de inteligência artificial

Além disso, o estudo descobriu que ambos os critérios são indispensáveis. Apenas a diversidade não é suficiente: diante de tarefas mais difíceis, o desempenho ainda falha (9%); apenas o CoT também não é suficiente: diante de variações de instruções, ainda é frágil. Apenas quando ambos estão presentes, o SFT pode igualar ou até superar o RL em todos os aspectos.

O ponto interessante é que as condições reveladas pelos artigos acadêmicos correspondem exatamente às práticas específicas da Anthropic na alinhamento ético.

A diversidade é essencial? Então a Anthropic distribui o mesmo padrão de julgamento em dezenas de cenários de dilemas morais completamente heterogêneos.

A transição de dificuldade na implementação do CoT supervisionado? O processo de inferência baseado em princípios constitucionais introduzido em cada revisão é o CoT no domínio moral.

Não é um cálculo passo a passo matemático, mas sim uma expansão passo a passo de trocas de valor, sendo totalmente equivalente na função de "fornecer ao modelo uma estrutura de raciocínio intermediária transferível".

Os pares de dados SFT tradicionais são “enfrentar problema de hacker → responder diretamente com recusa” — respostas puras, sem raciocínio, modelo fixo, clássicos “dados de baixa qualidade”.

Enquanto isso, a análise dos pares de dados construídos com SFT é “enfrentar problemas complexos e ambíguos → avaliar detalhadamente prós e contras e consequências → finalmente derivar uma conclusão de recusa”, cuja estrutura de dados inclui naturalmente supervisão CoT mais extrema diversidade de cenários.

Neste paradigma, o modelo não aprende o comportamento final de recusa, mas sim a mentalidade subjacente de “ao enfrentar qualquer problema, primeiro avaliar o impacto contrafactual e a reversibilidade”. Quando esse mecanismo de avaliação é internalizado no espaço de parâmetros, o modelo deixa de estar limitado aos cenários específicos presentes nos dados de treinamento.

E a quantidade de dados é extremamente pequena (na ordem de 3 milhões de tokens) em comparação com os parâmetros totais do modelo e o corpus de pré-treinamento. Não se trata de modificar brutalmente a distribuição de saída do modelo com sinais de penalização em grande escala, mas sim de adicionar uma fina camada de hábito de revisão sobre as capacidades já existentes. O problema tradicional da SFT, o esquecimento catastrófico, também não será muito presente.

A verdadeira generalização acontece naturalmente no momento em que a estrutura de dados está correta.

Vácuo fora do 03 RLVR

A análise acima basicamente resolveu o mistério de por que ele funciona.

SFT composto por dados razoáveis dotou o modelo com a capacidade de julgamento moral generalizado.

Mas o problema que enfrentamos vai muito além do alinhamento ético.

Ao longo do último ano, o Test time Compute pós-treinamento demonstrou a força do RL puro em domínios matemáticos/codificados com regras claras (RLVR). No entanto, os limites da inteligência vão muito além das fórmulas matemáticas. Assim que se sai da zona de conforto de verdades verificáveis, esse método torna-se completamente inaplicável.

Você nunca poderá verificar se uma conversa de aconselhamento psicológico de uma hora foi perfeita com algumas linhas de código de teste automatizado. Também não poderá executar a lógica narrativa de um artigo de análise macroeconômica profunda com um conjunto rigoroso de fórmulas matemáticas. Até mesmo em planejamento estratégico comercial complexo e simulações geopolíticas, a correção ou incorreção de uma decisão muitas vezes só se revelará após cinco ou até dez anos.

Nesta planície não-RLVR, sem qualquer Ground Truth, a lógica formal de progressão unidirecional CoT é ineficaz. O aprendizado por reforço baseado em feedback do resultado final também não encontra nenhum ponto de apoio para calcular recompensas.

Mas o campo revelado neste artigo da Anthropic é exatamente um campo além do RLVR, ou seja, o campo moral.

Seu método conseguiu permitir que o modelo alcançasse capacidade de generalização semelhante à do RL também em domínios morais cinzentos, mutáveis e que exigem flexibilidade nas regras.

Does this suggest that this approach could serve as an effective training protocol beyond the RLVR domain?

Após entender a origem da sua validade e a estrutura dos dados, a resposta é sim.

Porque nenhum dos seus componentes subjacentes é exclusivo da alinhamento ético.

Vamos examinar individualmente as condições nas quais o conjunto da Anthropic de "SFT reforçada por deliberação" é eficaz, para ver se podem ser generalizadas.

A diversidade pode ser construída em qualquer área que exija generalização. Aconselhamento psicológico pode incluir dezenas de cenários heterogêneos, como depressão, ansiedade, transtorno de estresse pós-traumático e ruptura de relacionamentos íntimos; análise comercial pode abranger tipos completamente distintos de decisões, como precificação de SaaS, avaliação de fusões e aquisições e estratégias de entrada no mercado; edição literária pode abranger gêneros radicalmente diferentes, como ficção científica, não-ficção, poesia e roteiros. Desde que você tenha imaginação suficiente para criar variações de cenário, a diversidade não será um gargalo.

Alinhamento de inteligência artificial

CoT supervision, this is the true key conversion point. In the moral domain, CoT is built upon constitutional deliberation. So in other domains, what is CoT?

No campo da edição literária, pode ser: "referir-se aos critérios de revisão → avaliar individualmente a força dos argumentos, a vulnerabilidade cognitiva do público-alvo, a precisão das analogias estendidas e a coerência lógica geral → fornecer sugestões de revisão"

No campo da psicoterapia, pode ser «referenciar o quadro terapêutico → avaliar individualmente o estado emocional do cliente, os tipos de distorções cognitivas, a força da aliança terapêutica e o momento adequado para intervenção → escolher a estratégia de resposta».

No campo da estratégia empresarial, pode ser «utilizar um quadro de análise de referência → avaliar individualmente o tamanho do mercado, barreiras à concorrência, execução da equipe, eficiência de capital e janela de tempo → fornecer uma avaliação»

Essencialmente, qualquer capacidade que exija «fazer um equilíbrio dinâmico entre múltiplas dimensões incommensuráveis» pode ser abstraída como uma estrutura semelhante de «framework + deliberação multifatorial».

Não precisamos ser arrogantes ao tentar dizer ao modelo qual artigo é perfeito, pois isso é impossível e não científico. Precisamos apenas decompor o processo de decisão dos melhores especialistas em uma cadeia explícita de deliberação e distribuí-la em cenários suficientemente diversos.

Desde que as “boas respostas” dentro deste domínio tenham uma estrutura passível de ser explicada pelo processo de avaliação. Ou seja, os especialistas não fazem bons julgamentos por causa de uma caixa-preta intuitiva misteriosa, mas porque executam mentalmente um processo de ponderação que pode ser decomposto e escrito. Um bom terapeuta que escolhe o silêncio em vez de fazer perguntas está realizando uma avaliação combinada da força da aliança terapêutica, da capacidade atual do cliente e do momento adequado para intervenção — tudo isso pode ser escrito.

Além disso, o mesmo formato de deliberação pode se repetir em centenas de cenários heterogêneos. A estrutura da deliberação é estável (baseada na constituição), mas as superfícies dos cenários devem ser extremamente diversas. Se um domínio tiver naturalmente um único tipo de cenário (por exemplo, apenas um tipo de julgamento), então basta usar diretamente o RLVR.

E o seu campo mais aplicável está nos cenários que podem ser derivados por meio de constituição e fatores. A Anthropic pode usar o loop de IA Constitucional para permitir que o modelo professor gere automaticamente dados de deliberação; porém, em outros domínios, devemos ser capazes de construir um sistema constitucional e de fatores superior que garanta isso.

Portanto, isso efetivamente estabelece um novo paradigma de pós-treinamento geral e especificamente voltado para domínios de respostas não padronizadas.

Sua fórmula é: Constituição do domínio (princípios superiores imutáveis) + barreiras heurísticas + quadro de deliberação multifatorial + COT deliberativo (casos de estudo diversificados com derivação completa) = capacidade de generalização fora do domínio RLVR.

04 Nova Rota de Destilação

Amigos que já tiveram experiência em escrita de Skill, ao chegarem aqui, certamente sentirão que muitos sistemas e regras na constituição parecem muito semelhantes ao processo de escrita de certas Skill.

No entanto, essas habilidades muitas vezes se desempenham mal.

No meu artigo anterior, “Quanto da nossa capacidade o Skill realmente pode destilar?”, fizemos, com base na ciência cognitiva, a seguinte constatação: prompts de texto puro ou system prompts têm dificuldade em lidar com equilíbrios dinâmicos em ambientes e cenários complexos, pois envolvem cálculos de utilidade vastos e sutis. Você não pode colocar toda a intuição clínica de um psicólogo terapeuta de elite em um único prompt, assim como não pode aprender a andar de bicicleta apenas lendo um manual.

Mas o método da Anthropic evita perfeitamente essa armadilha. Eles utilizam milhões ou dezenas de milhões de tokens de dados de alta qualidade durante a fase de treinamento, que consome muita potência computacional, para forçar a inserção desses pesados lógicos de avaliação por meio de SFT.

Através do ajuste e fine-tuning por força bruta com grandes volumes de dados, o modelo gradualmente aprendeu a distribuição de pesos desse mecanismo de revisão no espaço latente.

Após inúmeras análises prolongadas na sala de treinamento, baseadas nos oito fatores e nas três cercas, essas experiências tornaram-se permanentemente incorporadas à intuição do modelo.

Alinhamento de inteligência artificial

A distilação no nível dos parâmetros foi comprovada como eficaz aqui. Além disso, é formalmente muito semelhante ao Skill.

Once the effectiveness of this method in other fields is validated, this higher-level, more expert-like distillation will become a reality.

E uma vez que esse caminho seja trilhado, quem conseguir construir o conjunto de dados de "framework + COT deliberativo" de mais alta qualidade terá capacidade de generalização nesse campo.

Este impulso pós-treinamento desloca parcialmente a competição de "poder de computação e algoritmos" para a dimensão da "expressão estruturada do conhecimento de domínio".

Talvez seja por isso que a Anthropic e outras empresas estão contratando profissionais especializados em contar histórias para ajudar a construir uma estruturação racional fora do domínio do RLVR.

A era da grande destilação acabou de começar.

Este artigo é do número oficial do WeChat "Tencent Technology", autor: Boyang