Jalon chinois en intelligence artificielle : le modèle DeepSeek de 1,6 billion de paramètres entièrement formé sur Ascend 910C domestique

iconKuCoinFlash
Partager
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRésumé

expand icon
Une équipe conjointe comprenant le Collège HeTao de Shenzhen, le HIT (Shenzhen), l’Institut shenzhenais des données massives et Huawei a achevé l’entraînement complet du modèle DeepSeek-V4-Pro de 1,6 billion de paramètres sur la plateforme d’intelligence artificielle Ascend 910C nationale. Cette actualité sur chaîne marque la première fois qu’un groupe tiers réalise l’entraînement complet d’un modèle de 1,6 billion de paramètres en utilisant plus de 1 000 puces Ascend 910C. L’équipe a amélioré l’utilisation du calcul du modèle de plus de 30 % et l’efficacité des opérateurs clés de 14 %, sans aucune défaillance système au cours de plus de 1 500 étapes d’entraînement. Cette actualité combinant IA et crypto met en lumière les capacités et l’infrastructure croissantes de l’IA nationale.
ME AI a annoncé, selon les observations de Beating, qu'une équipe conjointe composée de l'Université de Shenzhen Hequ, de l'Université des sciences et technologies de Harbin (siège de Shenzhen), de l'Institut des grands données de Shenzhen et d'équipes associées de Huawei, en collaboration avec la plateforme de calcul AI de Shenzhen Zhicheng, a réussi à effectuer l'entraînement complet en post-entraînement (Post-training) du modèle à 1,6 billion de paramètres DeepSeek-V4-Pro sur une plateforme de calcul AI nationale. Il s'agit de la première réalisation mondiale par une institution tierce d'un entraînement complet en post-entraînement d'un modèle de cette échelle (1,6 billion de paramètres) sur une plateforme de calcul nationale. Contrairement à l'entraînement préalable (Pre-training) à partir de zéro, la phase de post-entraînement (principalement composée du fine-tuning supervisé SFT et de l'apprentissage par renforcement RL) vise à enseigner au modèle à suivre des instructions et à exécuter des tâches spécifiques grâce à des instructions de haute qualité et à l'alignement avec les préférences humaines. Toutefois, pour un modèle MoE de 1,6 billion de paramètres, l'entraînement complet en post-entraînement impose des exigences extrêmement strictes en matière de capacité de mémoire GPU sous-jacente, de bande passante de communication entre plusieurs cartes (comme les communications tout-à-tout déclenchées par le routage MoE) et de stabilité des clusters à grande échelle. L'équipe conjointe a surmonté ces goulets d'étranglement en s'appuyant sur un cluster de calcul Huawei Ascend 910C comprenant plus d'un millier de puces, grâce à l'optimisation des stratégies de répartition distribuée et d'équilibrage de charge. Au cours des plus de 1 500 étapes d'entraînement, le système n'a subi aucune interruption, l'utilisation du calcul du modèle (MFU) a dépassé 30 %, l'efficacité des opérateurs clés a augmenté de 14 %, et tous les indicateurs ont atteint les normes industrielles. Les analystes du secteur soulignent que la réussite du cluster Huawei Ascend 910C dans l'entraînement de modèles à l'échelle du billion confirme la faisabilité technique des puces AI nationales pour des tâches d'entraînement approfondi de modèles ultra-gros. Jusqu'à présent, les pré-entraînements centraux des grands modèles dépendaient largement des clusters GPU NVIDIA, tandis que les capacités nationales étaient principalement utilisées pour l'inférence ou le fine-tuning de modèles à faible paramétrage. Ce succès conjoint marque le passage accéléré de l'écosystème national de calcul d'une capacité « limitée à l'inférence » vers une boucle technologique complète capable d'assumer l'entraînement complet des modèles à très gros paramètres. (Source : MLion)
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations. Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.