Novas descobertas no pós-treinamento de modelos grandes: o treinamento no trajeto com dados autogerados ajuda os modelos a melhorarem

De acordo com a observação do Beating, o "amostragem on-policy" (ou seja, treinar o modelo com base em dados gerados em tempo real por ele mesmo) durante o pós-treinamento de grandes modelos é essencial para prevenir a degradação do modelo e melhorar sua capacidade de resolução de problemas. O aprendizado por reforço online (RL) e a destilação on-policy (OPD) superam a fine-tuning supervisionada tradicional (SFT) porque permitem que o modelo se otimize com base nos próprios passos que escreveu, em vez de decorar respostas externas padrão. A SFT impõe forçadamente respostas padrão, aplicando uniformemente o esforço de modificação em cada palavra, o que facilmente danifica a estrutura de conhecimento original do modelo e causa esquecimento. Em contraste, RL e OPD permitem que o modelo busque e reforce os melhores passos dentro de seus próprios rascunhos. Isso não apenas evita erros acumulativos como "começar errado uma palavra e desviar-se gradualmente", mas também limita as atualizações apenas às regiões de conhecimento já conhecidas pelo modelo, preservando assim ao máximo suas capacidades nativas. No experimento de "edição mínima de código", independentemente de usar SFT ou RL como professor, a taxa de sucesso na primeira tentativa (Pass@1) dos modelos alunos para escrever código corretamente atingiu 80,0% e 78,7%, respectivamente, superando os modelos professores. Mesmo que o professor SFT tenha ficado severamente "estúpido" devido ao excesso de fine-tuning (sua pontuação no teste de capacidade de código LiveCodeBench caiu de 0,320 para 0,286), seu aluno ainda obteve uma pontuação alta de 0,297, quase não afetada pelas deficiências do professor, provando que o treinamento on-policy pode efetivamente filtrar maus hábitos do professor. Atualmente, o DeepSeek-V4 e o GLM-5 já incorporaram a destilação on-policy para combinar as capacidades de modelos especialistas. No treinamento de especialistas, domínios com respostas claras e objetivas, como código e matemática, são mais adequados para RL, enquanto tarefas subjetivas criativas e de conhecimento são mais adequadas para destilação on-policy. O algoritmo final de fine-tuning futuro precisará, dentro do quadro de treinamento on-policy, encontrar novos mecanismos que combinem a alta eficiência da destilação (alta densidade de informação) com a objetividade do RL (atualizações imparciais).