El método de entrenamiento de DeepSeek V4 cambia a OPD y fusiona modelos expertos

KuCoinFlash

Momento del lanzamiento: 24/04/2026, 4:20:49

Resumen

El entrenamiento de DeepSeek V4 ahora utiliza OPD tras un cambio desde la etapa mixta de RL de V3.2. Los expertos en matemáticas, código y seguimiento de instrucciones se entrenan primero, luego se distilan en un solo modelo mediante OPD de múltiples profesores. Un GRM ayuda con tareas complejas utilizando mínimos datos humanos. Este cambio se alinea con protocolos CFT más estrictos y el creciente interés en activos de riesgo, mientras los proyectos buscan eficiencia.

Noticias de ME, 24 de abril (UTC+8): según el monitoreo de Beating, el método de postentrenamiento de DeepSeek V4 ha experimentado un cambio significativo: la fase de RL mixta de V3.2 ha sido completamente reemplazada por On-Policy Distillation (OPD, destilación en línea). El nuevo proceso consta de dos pasos. En el primer paso, se entrenan modelos expertos de dominio específicos sobre la tubería V3.2 para áreas como matemáticas, código, agentes y seguimiento de instrucciones; cada experto primero se ajusta finamente y luego se somete a aprendizaje por refuerzo con GRPO. En el segundo paso, se utiliza OPD con múltiples maestros para destilar las capacidades de más de una docena de expertos en un modelo unificado: el estudiante realiza destilación de logit de todo el vocabulario con reverse KL divergencia sobre sus propias trayectorias generadas, alineando a nivel de logits para fusionar los pesos de múltiples expertos en un espacio de parámetros unificado, evitando así los conflictos de capacidad comunes en la fusión de pesos y el RL mixto tradicional. El informe también presenta el Generative Reward Model (GRM, modelo generativo de recompensa): para tareas difíciles de validar con reglas, en lugar de entrenar modelos de recompensa escalar tradicionales, se entrena el GRM con datos de RL guiados por rúbricas, permitiendo que la red actor asuma simultáneamente las funciones de generación y evaluación, logrando una generalización a tareas complejas con pocas anotaciones humanas diversificadas. (Fuente: BlockBeats)

Fuente:Mostrar original

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.