Série DeepSeek V4 lancée avec 1,6 billion de paramètres et licence MIT

Message de ChainThink, le 24 avril : selon les informations officielles, la version préliminaire de la série DeepSeek V4 est désormais open source sous licence MIT, et les poids du modèle sont disponibles sur Hugging Face et ModelScope.

Cette série comprend deux modèles MoE, dont le V4-Pro compte un total de 1,6 billion de paramètres, avec 49 milliards de paramètres activés par token ;

V4-Flash compte 284 milliards de paramètres au total, avec 13 milliards de paramètres activés par token ; les deux modèles prennent en charge un contexte de 1 million de tokens.

Cette architecture comprend trois améliorations : un mécanisme d'attention hybride (Attention Compressée et Éparse CSA + Attention Lourdement Compressée HCA) réduit considérablement la charge des contextes longs ; dans un scénario de contexte de 1M, les FLOPs par token pour l'inférence du V4-Pro ne représentent que 27 % de ceux du V3.2, et l'utilisation de la mémoire pour le cache KV est réduite à 10 % de celle du V3.2 ;

Les connexions résiduelles traditionnelles sont remplacées par des hyperconnexions contraintes par la variété mHC pour renforcer la stabilité de la propagation du signal entre les couches ; l'entraînement utilise désormais l'optimiseur Muon pour accélérer la convergence. Le modèle a été pré-entraîné sur plus de 32T de jetons.

L'entraînement postérieur se déroule en deux phases : d'abord, les modèles d'experts dans chaque domaine sont entraînés respectivement par SFT et GRPO, puis fusionnés en un modèle final via un distillation en ligne.

V4-Pro-Max se revendique comme le modèle open source le plus puissant actuel, avec des performances de codage au niveau supérieur et un écart significativement réduit avec les modèles propriétaires de pointe en matière d'inférence et de tâches agent.

V4-Flash-Max atteint des performances proches de Pro après avoir obtenu un budget de réflexion suffisant, mais est limité par sa taille de paramètres dans les tâches de connaissance pure et les agents complexes. Les poids du modèle sont stockés en précision mixte FP4+FP8.