Mudança na metodologia de treinamento do DeepSeek V4 para OPD, integra modelos especializados

KuCoinFlash

Data de lançamento: 24/04/2026, 04:20:49

Resumo

O treinamento do DeepSeek V4 agora utiliza o OPD após uma transição da fase mista de RL do V3.2. Especialistas em matemática, código e seguimento de instruções são treinados primeiro e depois distilados em um único modelo por meio do OPD com múltiplos professores. Um GRM auxilia em tarefas complexas usando dados humanos mínimos. A mudança está alinhada com protocolos CFT mais rigorosos e o crescente interesse em ativos de risco, à medida que os projetos buscam eficiência.

Notícia da ME, 24 de abril (UTC+8): De acordo com monitoramento da Beating, o método de pós-treinamento do DeepSeek V4 sofreu mudanças significativas: a fase de RL mista do V3.2 foi totalmente substituída pelo On-Policy Distillation (OPD, destilação em política online). O novo processo ocorre em duas etapas. Na primeira etapa, modelos especialistas em domínios específicos são treinados separadamente com base na pipeline do V3.2, abrangendo áreas como matemática, código, Agent e seguimento de instruções; cada especialista passa primeiro por fine-tuning e depois por aprendizado por reforço com GRPO. Na segunda etapa, a OPD com múltiplos professores transfere as capacidades de mais de dez especialistas para um modelo unificado: o aluno realiza destilação de logit em todo o vocabulário com reverse KL divergence em trajetórias geradas por si mesmo, alinhando logits para combinar os pesos de múltiplos especialistas em um único espaço de parâmetros, evitando conflitos de capacidade comuns em fusão de pesos e RL mista tradicionais. O relatório também propõe o Generative Reward Model (GRM, modelo gerativo de recompensa): para tarefas difíceis de validar com regras, em vez de treinar modelos tradicionais de recompensa escalar, utiliza-se dados de RL guiados por rubricas para treinar o GRM, permitindo que a rede actor assuma simultaneamente funções de geração e avaliação, alcançando generalização em tarefas complexas com poucos rótulos humanos diversificados. (Fonte: BlockBeats)

Fonte:Mostrar original

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.