Según el monitoreo de Beating, el "muestreo en la misma trayectoria" (es decir, entrenar al modelo con datos generados en tiempo real por él mismo) durante el postentrenamiento de grandes modelos es clave para prevenir la degradación del modelo y mejorar su capacidad para resolver problemas. El aprendizaje por refuerzo en línea (RL) y la destilación en la misma trayectoria (OPD) superan al ajuste fino supervisado (SFT) tradicional porque permiten que el modelo se optimice según sus propios pasos generados, en lugar de memorizar respuestas externas estandarizadas. El SFT impone rígidamente las respuestas correctas, aplicando fuerzas de modificación uniformemente sobre cada palabra, lo que fácilmente daña la estructura de conocimiento original del modelo y provoca olvido. En cambio, RL y OPD permiten que el modelo busque y refuerce los mejores pasos dentro de sus propios borradores. Esto no solo evita el error acumulativo de "comenzar mal una palabra y desviarse progresivamente", sino que también limita las actualizaciones a regiones del conocimiento ya conocidas por el modelo, preservando así al máximo sus capacidades originales. En el experimento de "edición mínima de código", independientemente de si se utiliza un maestro SFT o RL para la destilación en la misma trayectoria, la tasa de éxito en escribir correctamente el código a la primera (Pass@1) del modelo estudiante alcanzó respectivamente el 80,0 % y el 78,7 %, superando al modelo maestro. Incluso cuando el maestro SFT se volvió severamente "estúpido" debido al exceso de ajuste fino (su desempeño en la prueba de capacidad de código LiveCodeBench cayó de 0,320 a 0,286), su modelo estudiante aún logró una puntuación alta de 0,297, casi sin verse afectado por las deficiencias del maestro, lo que demuestra que el entrenamiento en la misma trayectoria puede filtrar eficazmente los malos hábitos del maestro. Actualmente, DeepSeek-V4 y GLM-5 ya han incorporado la destilación en la misma trayectoria para combinar las capacidades de modelos expertos. En el entrenamiento de expertos, los dominios con respuestas claras y correctas, como código y matemáticas, son más adecuados para RL, mientras que las tareas subjetivas creativas y de conocimiento son más apropiadas para la destilación en la misma trayectoria. El algoritmo final de ajuste fino futuro deberá, dentro del marco de entrenamiento en la misma trayectoria, buscar un nuevo mecanismo que combine la alta eficiencia de la destilación (alta densidad de información) con la objetividad del RL (actualizaciones sin sesgo).
Nuevos hallazgos en el entrenamiento posterior de modelos grandes: el entrenamiento en pista con datos generados por el propio modelo ayuda a mejorar los modelos
MarsBitCompartir
Nuevas investigaciones destacan el entrenamiento en pista con datos generados por el propio modelo como un método clave para mejorar el rendimiento y evitar la degradación. A diferencia del SFT tradicional, el RL en línea y la destilación en pista (OPD) permiten que los modelos refinen sus propios pasos en tiempo real. Pruebas recientes muestran que los modelos estudiantes entrenados de esta manera superaron a sus mentores, incluso cuando los datos de inflación y los cambios del mercado afectaron los benchmarks externos. Plataformas como DeepSeek-V4 y GLM-5 ya están utilizando este método para combinar conocimientos expertos. Las nuevas listas de tokens podrían beneficiarse de modelos más precisos y adaptables que utilicen la destilación en pista.
Fuente:Mostrar original
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información.
Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.