Selon CoinNews, le 22 avril (UTC+8), selon les données recueillies par Beating, l'étudiant en doctorat de Princeton Yifan Zhang a mis à jour les détails techniques de DeepSeek V4 sur X. Il avait annoncé le 19 avril que « V4 arrivera la semaine prochaine » et listé trois composants d'architecture ; ce soir, il a publié la table complète des paramètres et révélé pour la première fois l'existence d'une version légère, V4-Lite, avec 285 milliards de paramètres. Le nombre total de paramètres de V4 s'élève à 1,6 trillion. Le mécanisme d'attention est le DSA2, qui combine les deux approches d'attention clairsemée précédemment utilisées par DeepSeek dans V3.2 (DSA : DeepSeek Sparse Attention) et celle présentée dans un article début cette année (NSA : Native Sparse Attention), avec une dimension de head de 512, associée à Sparse MQA et SWA (Sliding Window Attention). La couche MoE comprend 384 experts, dont 6 sont activés à chaque fois, en utilisant le Fused MoE Mega-Kernel. Les connexions résiduelles conservent les Hyper-Connections. Les détails révélés pour la première fois concernant l'entraînement incluent : un optimiseur Muon (un optimiseur matriciel appliquant l'orthogonalisation Newton-Schulz aux mises à jour de moment), une longueur de contexte en pré-entraînement de 32K, et l'utilisation de GRPO avec correction KL-divergence pendant la phase d'apprentissage par renforcement. La longueur finale du contexte a été étendue à 1 million. Le modèle est exclusivement textuel. Zhang n'est pas employé par DeepSeek, et DeepSeek n'a pas réagi officiellement à ces informations.
Détails techniques de DeepSeek V4 révélés : 1,6 trillion de paramètres, 384 experts activant 6
币界网Partager






Des nouvelles sur la chaîne ont été publiées le 22 avril (UTC+8) lorsque l'étudiant au doctorat de Princeton, Yifan Zhang, a partagé les spécifications complètes de DeepSeek V4 sur X. V4 dispose de 1,6 billion de paramètres, d'un mécanisme d'attention DSA2, de 384 experts MoE avec 6 actifs par étape, et d'un contexte de 1 million de jetons. Zhang n'est pas lié à DeepSeek, qui n'a pas encore commenté. Les détails de la mise à niveau du réseau suggèrent d'importantes améliorations de performance.
Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.