Nuevos hallazgos en el entrenamiento posterior de modelos grandes: el entrenamiento en pista con datos generados por el propio modelo ayuda a mejorar los modelos

icon MarsBit
Compartir
AI summary iconResumen

Según el monitoreo de Beating, el "muestreo en la misma trayectoria" (es decir, entrenar al modelo con datos generados en tiempo real por él mismo) durante el postentrenamiento de grandes modelos es clave para prevenir la degradación del modelo y mejorar su capacidad para resolver problemas. El aprendizaje por refuerzo en línea (RL) y la destilación en la misma trayectoria (OPD) superan al ajuste fino supervisado (SFT) tradicional porque permiten que el modelo se optimice según sus propios pasos generados, en lugar de memorizar respuestas externas estandarizadas. El SFT impone rígidamente las respuestas correctas, aplicando fuerzas de modificación uniformemente sobre cada palabra, lo que fácilmente daña la estructura de conocimiento original del modelo y provoca olvido. En cambio, RL y OPD permiten que el modelo busque y refuerce los mejores pasos dentro de sus propios borradores. Esto no solo evita el error acumulativo de "comenzar mal una palabra y desviarse progresivamente", sino que también limita las actualizaciones a regiones del conocimiento ya conocidas por el modelo, preservando así al máximo sus capacidades originales. En el experimento de "edición mínima de código", independientemente de si se utiliza un maestro SFT o RL para la destilación en la misma trayectoria, la tasa de éxito en escribir correctamente el código a la primera (Pass@1) del modelo estudiante alcanzó respectivamente el 80,0 % y el 78,7 %, superando al modelo maestro. Incluso cuando el maestro SFT se volvió severamente "estúpido" debido al exceso de ajuste fino (su desempeño en la prueba de capacidad de código LiveCodeBench cayó de 0,320 a 0,286), su modelo estudiante aún logró una puntuación alta de 0,297, casi sin verse afectado por las deficiencias del maestro, lo que demuestra que el entrenamiento en la misma trayectoria puede filtrar eficazmente los malos hábitos del maestro. Actualmente, DeepSeek-V4 y GLM-5 ya han incorporado la destilación en la misma trayectoria para combinar las capacidades de modelos expertos. En el entrenamiento de expertos, los dominios con respuestas claras y correctas, como código y matemáticas, son más adecuados para RL, mientras que las tareas subjetivas creativas y de conocimiento son más apropiadas para la destilación en la misma trayectoria. El algoritmo final de ajuste fino futuro deberá, dentro del marco de entrenamiento en la misma trayectoria, buscar un nuevo mecanismo que combine la alta eficiencia de la destilación (alta densidad de información) con la objetividad del RL (actualizaciones sin sesgo).

Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.