Série DeepSeek V4 lancée avec 1,6 billion de paramètres et licence MIT

iconChainthink
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Des nouvelles sur la chaîne ont été publiées le 24 avril avec le lancement par DeepSeek de la série V4 sous licence MIT. Les modèles, désormais disponibles sur Hugging Face et ModelScope, incluent V4-Pro (1,6 billion de paramètres) et V4-Flash (284 milliards de paramètres), tous deux prenant en charge un contexte de 1 million de jetons. La série V4 introduit trois améliorations architecturales, notamment un mécanisme d’attention hybride qui réduit les coûts liés aux contextes longs. V4-Pro utilise 27 % des FLOPs de V3.2 et 10 % de sa mémoire de cache KV. Formés sur plus de 32 billions de jetons, ces modèles utilisent SFT, GRPO et une distillation en ligne. De nouveaux jetons pourraient bénéficier de cette efficacité améliorée.

Message de ChainThink, le 24 avril : selon les informations officielles, la version préliminaire de la série DeepSeek V4 est désormais open source sous licence MIT, et les poids du modèle sont disponibles sur Hugging Face et ModelScope.


Cette série comprend deux modèles MoE, dont le V4-Pro compte un total de 1,6 billion de paramètres, avec 49 milliards de paramètres activés par token ;


V4-Flash compte 284 milliards de paramètres au total, avec 13 milliards de paramètres activés par token ; les deux modèles prennent en charge un contexte de 1 million de tokens.


Cette architecture comprend trois améliorations : un mécanisme d'attention hybride (Attention Compressée et Éparse CSA + Attention Lourdement Compressée HCA) réduit considérablement la charge des contextes longs ; dans un scénario de contexte de 1M, les FLOPs par token pour l'inférence du V4-Pro ne représentent que 27 % de ceux du V3.2, et l'utilisation de la mémoire pour le cache KV est réduite à 10 % de celle du V3.2 ;


Les connexions résiduelles traditionnelles sont remplacées par des hyperconnexions contraintes par la variété mHC pour renforcer la stabilité de la propagation du signal entre les couches ; l'entraînement utilise désormais l'optimiseur Muon pour accélérer la convergence. Le modèle a été pré-entraîné sur plus de 32T de jetons.


L'entraînement postérieur se déroule en deux phases : d'abord, les modèles d'experts dans chaque domaine sont entraînés respectivement par SFT et GRPO, puis fusionnés en un modèle final via un distillation en ligne.


V4-Pro-Max se revendique comme le modèle open source le plus puissant actuel, avec des performances de codage au niveau supérieur et un écart significativement réduit avec les modèles propriétaires de pointe en matière d'inférence et de tâches agent.


V4-Flash-Max atteint des performances proches de Pro après avoir obtenu un budget de réflexion suffisant, mais est limité par sa taille de paramètres dans les tâches de connaissance pure et les agents complexes. Les poids du modèle sont stockés en précision mixte FP4+FP8.

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.