Nouvelles découvertes dans l'entraînement postérieur des grands modèles : l'entraînement in-track avec des données auto-générées aide les modèles à s'améliorer

Selon les observations de Beating, l'échantillonnage sur la même trajectoire (c’est-à-dire former le modèle à partir de ses propres données générées en temps réel) est essentiel pour prévenir la dégradation du modèle et améliorer sa capacité à résoudre des problèmes. L’apprentissage par renforcement en ligne (RL) et la distillation sur la même trajectoire (OPD) surpassent le fine-tuning supervisé (SFT) car ils permettent au modèle d’optimiser ses propres étapes, plutôt que de mémoriser mécaniquement des réponses externes. Le SFT impose des réponses standard en appliquant uniformément une force de modification à chaque mot, ce qui risque facilement de détruire la structure de connaissances existante du modèle et d’entraîner un oubli. À l’inverse, le RL et l’OPD incitent le modèle à identifier et renforcer les meilleures étapes au sein de ses propres brouillons. Cela évite non seulement l’accumulation d’erreurs du type « une erreur au début entraîne une dérive progressive », mais limite également les mises à jour aux régions de connaissances déjà maîtrisées par le modèle, préservant ainsi au maximum ses capacités natives. Dans l’expérience de « modification minimale de code », que ce soit avec un enseignant SFT ou RL pour la distillation sur la même trajectoire, le taux de réussite en une seule tentative (Pass@1) des modèles élèves atteint respectivement 80,0 % et 78,7 %, dépassant ainsi les modèles enseignants. Même si le modèle enseignant SFT, en raison d’un sur-fine-tuning, devient sérieusement « moins performant » (son score sur le test LiveCodeBench chute de 0,320 à 0,286), son élève obtient néanmoins un score élevé de 0,297, presque sans être affecté par les défauts de son enseignant, prouvant que l’entraînement sur la même trajectoire filtre efficacement les mauvaises habitudes de l’enseignant. Actuellement, DeepSeek-V4 et GLM-5 ont intégré la distillation sur la même trajectoire pour fusionner les capacités de modèles experts. Dans l’entraînement des experts, les domaines avec des réponses clairement correctes ou incorrectes — comme le code et les mathématiques — sont mieux adaptés au RL, tandis que les tâches subjectives créatives ou basées sur les connaissances conviennent davantage à la distillation sur la même trajectoire. L’algorithme ultime de fine-tuning futur devra nécessairement, dans un cadre d’entraînement sur la même trajectoire, trouver un mécanisme combinant l’efficacité élevée de la distillation (haute densité d’information) et l’objectivité du RL (mises à jour sans biais).