Selon les nouvelles de ME, le 24 avril (UTC+8), selon les données surveillées par Beating, la version préliminaire de la série DeepSeek V4 open source, sous licence MIT, est désormais disponible sur Hugging Face et ModelScope. La série comprend deux modèles MoE : V4-Pro, avec un total de 1,6 trillion de paramètres et 49 milliards (49B) d'activations par token ; V4-Flash, avec un total de 284 milliards (284B) de paramètres et 13 milliards (13B) d'activations. Les deux modèles prennent en charge un contexte de 1 million de tokens. Trois améliorations architecturales : un mécanisme d'attention hybride (CSA - Attention Compressée et Rareté + HCA - Attention Lourdement Compressée) réduit considérablement la charge des contextes longs ; pour un contexte de 1 million de tokens, les FLOPs par token pour l'inférence de V4-Pro ne représentent que 27 % de ceux de V3.2, et la mémoire tampon KV (occupation de la mémoire GPU pour stocker les informations historiques lors de l'inférence) est réduite à 10 % de celle de V3.2 ; la connexion hyper-superposée à contrainte de variété (mHC) remplace les connexions résiduelles traditionnelles pour renforcer la stabilité de la propagation des signaux entre les couches ; l'entraînement utilise désormais l'optimiseur Muon pour accélérer la convergence. Les données d'entraînement préliminaire dépassent 32 billions de tokens. L'entraînement post-préentraînement se déroule en deux phases : d'abord, des experts spécialisés dans chaque domaine sont entraînés via SFT et l'apprentissage par renforcement GRPO, puis un processus de distillation en ligne fusionne ces experts en un seul modèle. V4-Pro-Max (mode de puissance d'inférence maximale) se revendique comme le modèle open source le plus puissant actuel, atteignant des performances de pointe sur les benchmarks de codage, et réduisant considérablement l'écart avec les modèles propriétaires avancés en matière d'inférence et de tâches agent. V4-Flash-Max offre des performances d'inférence proches de celles de Pro lorsqu'un budget de réflexion suffisant est alloué, mais ses performances sur les tâches purement knowledge-intensive et complexes sont limitées par sa taille paramétrique. Les poids sont stockés en précision mixte FP4+FP8. (Source : BlockBeats)
Lancement du modèle DeepSeek V4 open-source avec 1,6 trillion de paramètres et licence MIT
KuCoinFlashPartager






Des nouvelles sur la chaîne ont été publiées le 24 avril (UTC+8) avec le lancement par DeepSeek de la version préliminaire de ses modèles open-source de la série V4 sous licence MIT. Les modèles V4-Pro et V4-Flash MoE comptent respectivement 1,6 billion et 284 milliards de paramètres, avec une prise en charge de 1 million de jetons de contexte. Le V4-Pro réduit les FLOPs d'inférence de 73 % et la mémoire du cache KV de 90 % par rapport au V3.2. Les poids sont disponibles sur Hugging Face et ModelScope. De nouveaux jetons pourraient bénéficier de cette efficacité améliorée et de l'accès ouvert.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.