Logro chino de IA: Modelo DeepSeek de 1,6 billones de parámetros completamente entrenado en Ascend 910C nacional

iconKuCoinFlash
Compartir
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumen

expand icon
Un equipo conjunto que incluye el Colegio Shenzhen HeTao, HIT (Shenzhen), el Instituto Shenzhen de Big Data y Huawei ha completado el entrenamiento completo del modelo DeepSeek-V4-Pro de 1,6 billones de parámetros en la plataforma de inteligencia artificial Ascend 910C nacional. Esta noticia en cadena marca la primera vez que un grupo externo logra el entrenamiento completo de un modelo de 1,6 billones de parámetros utilizando más de 1.000 chips Ascend 910C. El equipo mejoró la utilización del cálculo del modelo en más del 30% y la eficiencia de los operadores clave en un 14%, sin fallos del sistema durante más de 1.500 pasos de entrenamiento. La noticia de IA + cripto destaca el creciente potencial y la infraestructura de IA nacionales.
ME AI message, according to monitoring by Beating, a joint攻关 team composed of Shenzhen Hekou University, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, and Huawei-related teams, in collaboration with the Shenzhen Smart City AI compute platform, has successfully completed full-parameter post-training of the 1.6-trillion-parameter large model DeepSeek-V4-Pro on a domestic AI compute platform. This marks the first time a third-party organization globally has accomplished full-parameter post-training of a 1.6-trillion-parameter model on a domestic compute platform. Compared to pre-training from scratch, the post-training phase (primarily involving supervised fine-tuning SFT and reinforcement learning RL) focuses on teaching the model to follow instructions and perform specific tasks through high-quality directives and alignment with human preferences. However, full-parameter post-training for a 1.6-trillion-parameter MoE architecture model still imposes extremely demanding requirements on underlying hardware, including GPU memory capacity, inter-card communication bandwidth (such as all-to-all communication triggered by MoE routing), and stability of large-scale clusters. Leveraging a Huawei Ascend 910C compute cluster comprising over a thousand chips, the joint攻关 team successfully overcame communication bottlenecks by optimizing distributed workload distribution and load-balancing strategies. Throughout more than 1,500 training steps, the system experienced no interruptions, achieving a model FLOPs utilization (MFU) exceeding 30% and a 14% improvement in key operator efficiency—all metrics meeting industrial-grade operational standards. Industry analysts note that the successful execution of trillion-parameter model training on Huawei Ascend 910C clusters confirms the technical feasibility of domestic AI chips in handling deep training tasks for ultra-large-scale models. Previously, core pre-training for large models relied heavily on NVIDIA GPU clusters, while domestic compute platforms were primarily used for inference or small-parameter fine-tuning. The success of this joint攻关 signifies that China’s domestic compute ecosystem is rapidly transitioning from “supporting only inference” to achieving a technical closed loop capable of full-parameter training for ultra-large-parameter models. (Source: MLion)
Descargo de responsabilidad: La información contenida en esta página puede proceder de terceros y no refleja necesariamente los puntos de vista u opiniones de KuCoin. Este contenido se proporciona solo con fines informativos generales, sin ninguna representación o garantía de ningún tipo, y tampoco debe interpretarse como asesoramiento financiero o de inversión. KuCoin no es responsable de ningún error u omisión, ni de ningún resultado derivado del uso de esta información. Las inversiones en activos digitales pueden ser arriesgadas. Evalúa con cuidado los riesgos de un producto y tu tolerancia al riesgo en función de tus propias circunstancias financieras. Para más información, consulta nuestras Condiciones de uso y la Declaración de riesgos.