La méthodologie d'entraînement de DeepSeek V4 passe à l'OPD et fusionne les modèles experts

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
La formation de DeepSeek V4 utilise désormais OPD après un passage de la phase RL mixte de V3.2. Des experts en mathématiques, en programmation et en suivi d'instructions sont d'abord formés, puis distillés en un seul modèle via OPD à plusieurs enseignants. Un GRM aide à accomplir des tâches complexes avec un minimum de données humaines. Ce changement s'aligne sur des protocoles CFT plus stricts et sur une augmentation de l'intérêt pour les actifs risqués, alors que les projets cherchent à gagner en efficacité.

Selon les nouvelles de ME, le 24 avril (UTC+8), selon les données surveillées par Beating, la méthodologie d'entraînement postérieur de DeepSeek V4 a subi un changement majeur : la phase de RL mixte de V3.2 a été entièrement remplacée par l'On-Policy Distillation (OPD, distillation en ligne). Le nouveau processus se déroule en deux étapes. La première étape consiste, sur la base de la chaîne V3.2, à former des modèles experts spécialisés dans des domaines tels que les mathématiques, le code, les agents et le suivi d'instructions ; chaque expert est d'abord affiné, puis soumis à un apprentissage par renforcement via GRPO. La deuxième étape utilise l'OPD à plusieurs enseignants pour distiller les compétences de plus d'une dizaine d'experts dans un modèle unifié : l'étudiant effectue une distillation complète du vocabulaire sur les logits, basée sur la divergence KL inverse, sur ses propres trajectoires générées pour chaque enseignant, alignant les logits pour fusionner les poids de plusieurs experts dans un espace de paramètres unifié, évitant ainsi les conflits de compétences courants dans les méthodes traditionnelles de fusion de poids et de RL mixte. Le rapport introduit également le Generative Reward Model (GRM, modèle de récompense génératif) : pour les tâches difficiles à valider par des règles, au lieu d'entraîner un modèle de récompense scalaire traditionnel, on utilise des données d'apprentissage par renforcement guidées par des rubriques pour former le GRM, permettant au réseau actor d'assumer à la fois les fonctions de génération et d'évaluation, et d'atteindre une généralisation sur des tâches complexes avec peu d'annotations humaines variées. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.