Spécifications techniques de DeepSeek V4 révélées : 1,6 billion de paramètres, 384 experts activant 6

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Le 22 avril (UTC+8), l'étudiant au doctorat de Princeton Yifan Zhang a partagé des indicateurs techniques pour DeepSeek V4 sur X. Le modèle compte 1,6 billion de paramètres, 384 experts MoE avec 6 activés par étape, et une version V4-Lite de 285 milliards de paramètres. L'entraînement a utilisé l'optimiseur Muon, une longueur de contexte de pré-entraînement de 32K et une longueur de contexte finale de 1M. DeepSeek n'a pas commenté. Le sentiment du marché reste mitigé, avec l'indice de peur et de cupidité affichant une incertitude modérée.

Selon les nouvelles de ME, le 22 avril (UTC+8), selon les données recueillies par Beating, l'étudiant en doctorat de Princeton, Yifan Zhang, a mis à jour les détails techniques de DeepSeek V4 sur X. Il avait annoncé le 19 avril que « V4 arrivera la semaine prochaine » et listé trois composants d'architecture ; ce soir, il a publié la table complète des paramètres et révélé pour la première fois l'existence d'une version légère, V4-Lite, avec 285 milliards de paramètres. Le nombre total de paramètres de V4 s'élève à 1,6 trillion. Le mécanisme d'attention est le DSA2, qui combine les deux schémas d'attention clairsemée précédemment utilisés par DeepSeek dans V3.2 (DSA — DeepSeek Sparse Attention) et ceux présentés dans un article début cette année (NSA — Native Sparse Attention), avec une dimension de head de 512, associée à Sparse MQA et SWA (Sliding Window Attention). Les couches MoE comprennent 384 experts, avec 6 activés à la fois, utilisant le Fused MoE Mega-Kernel. Les connexions résiduelles conservent les Hyper-Connections. Parmi les détails révélés pour la première fois concernant l'entraînement : l'optimiseur utilisé est Muon (un optimiseur matriciel appliquant l'orthogonalisation Newton-Schulz aux mises à jour de moment), la longueur de contexte en pré-entraînement est de 32K, et pendant la phase d'apprentissage par renforcement, GRPO est utilisé avec une correction par divergence KL. La longueur finale du contexte a été étendue à 1 million. Le modèle est exclusivement textuel. Zhang n'est pas employé par DeepSeek, et DeepSeek n'a pas réagi officiellement à ces informations. (Source : BlockBeats)

Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.