Nuevos hallazgos en el entrenamiento posterior de modelos grandes: el entrenamiento en pista con datos generados por el propio modelo ayuda a mejorar los modelos

Según el monitoreo de Beating, el "muestreo en la misma trayectoria" (es decir, entrenar al modelo con datos generados en tiempo real por él mismo) durante el postentrenamiento de grandes modelos es clave para prevenir la degradación del modelo y mejorar su capacidad para resolver problemas. El aprendizaje por refuerzo en línea (RL) y la destilación en la misma trayectoria (OPD) superan al ajuste fino supervisado (SFT) tradicional porque permiten que el modelo se optimice según sus propios pasos generados, en lugar de memorizar respuestas externas estandarizadas. El SFT impone rígidamente las respuestas correctas, aplicando fuerzas de modificación uniformemente sobre cada palabra, lo que fácilmente daña la estructura de conocimiento original del modelo y provoca olvido. En cambio, RL y OPD permiten que el modelo busque y refuerce los mejores pasos dentro de sus propios borradores. Esto no solo evita el error acumulativo de "comenzar mal una palabra y desviarse progresivamente", sino que también limita las actualizaciones a regiones del conocimiento ya conocidas por el modelo, preservando así al máximo sus capacidades originales. En el experimento de "edición mínima de código", independientemente de si se utiliza un maestro SFT o RL para la destilación en la misma trayectoria, la tasa de éxito en escribir correctamente el código a la primera (Pass@1) del modelo estudiante alcanzó respectivamente el 80,0 % y el 78,7 %, superando al modelo maestro. Incluso cuando el maestro SFT se volvió severamente "estúpido" debido al exceso de ajuste fino (su desempeño en la prueba de capacidad de código LiveCodeBench cayó de 0,320 a 0,286), su modelo estudiante aún logró una puntuación alta de 0,297, casi sin verse afectado por las deficiencias del maestro, lo que demuestra que el entrenamiento en la misma trayectoria puede filtrar eficazmente los malos hábitos del maestro. Actualmente, DeepSeek-V4 y GLM-5 ya han incorporado la destilación en la misma trayectoria para combinar las capacidades de modelos expertos. En el entrenamiento de expertos, los dominios con respuestas claras y correctas, como código y matemáticas, son más adecuados para RL, mientras que las tareas subjetivas creativas y de conocimiento son más apropiadas para la destilación en la misma trayectoria. El algoritmo final de ajuste fino futuro deberá, dentro del marco de entrenamiento en la misma trayectoria, buscar un nuevo mecanismo que combine la alta eficiencia de la destilación (alta densidad de información) con la objetividad del RL (actualizaciones sin sesgo).