Jalon chinois en intelligence artificielle : le modèle DeepSeek de 1,6 billion de paramètres entièrement formé sur Ascend 910C domestique

ME AI a annoncé, selon les observations de Beating, qu'une équipe conjointe composée de l'Université de Shenzhen Hequ, de l'Université des sciences et technologies de Harbin (siège de Shenzhen), de l'Institut des grands données de Shenzhen et d'équipes associées de Huawei, en collaboration avec la plateforme de calcul AI de Shenzhen Zhicheng, a réussi à effectuer l'entraînement complet en post-entraînement (Post-training) du modèle à 1,6 billion de paramètres DeepSeek-V4-Pro sur une plateforme de calcul AI nationale. Il s'agit de la première réalisation mondiale par une institution tierce d'un entraînement complet en post-entraînement d'un modèle de cette échelle (1,6 billion de paramètres) sur une plateforme de calcul nationale. Contrairement à l'entraînement préalable (Pre-training) à partir de zéro, la phase de post-entraînement (principalement composée du fine-tuning supervisé SFT et de l'apprentissage par renforcement RL) vise à enseigner au modèle à suivre des instructions et à exécuter des tâches spécifiques grâce à des instructions de haute qualité et à l'alignement avec les préférences humaines. Toutefois, pour un modèle MoE de 1,6 billion de paramètres, l'entraînement complet en post-entraînement impose des exigences extrêmement strictes en matière de capacité de mémoire GPU sous-jacente, de bande passante de communication entre plusieurs cartes (comme les communications tout-à-tout déclenchées par le routage MoE) et de stabilité des clusters à grande échelle. L'équipe conjointe a surmonté ces goulets d'étranglement en s'appuyant sur un cluster de calcul Huawei Ascend 910C comprenant plus d'un millier de puces, grâce à l'optimisation des stratégies de répartition distribuée et d'équilibrage de charge. Au cours des plus de 1 500 étapes d'entraînement, le système n'a subi aucune interruption, l'utilisation du calcul du modèle (MFU) a dépassé 30 %, l'efficacité des opérateurs clés a augmenté de 14 %, et tous les indicateurs ont atteint les normes industrielles. Les analystes du secteur soulignent que la réussite du cluster Huawei Ascend 910C dans l'entraînement de modèles à l'échelle du billion confirme la faisabilité technique des puces AI nationales pour des tâches d'entraînement approfondi de modèles ultra-gros. Jusqu'à présent, les pré-entraînements centraux des grands modèles dépendaient largement des clusters GPU NVIDIA, tandis que les capacités nationales étaient principalement utilisées pour l'inférence ou le fine-tuning de modèles à faible paramétrage. Ce succès conjoint marque le passage accéléré de l'écosystème national de calcul d'une capacité « limitée à l'inférence » vers une boucle technologique complète capable d'assumer l'entraînement complet des modèles à très gros paramètres. (Source : MLion)