中國 AI 里程碑：1.6T 參數 DeepSeek 模型已於國內 Ascend 910C 完成全訓練

ME AI 消息，根據動察 Beating 監測，由深圳河套學院、哈工大（深圳）、深圳市大數據研究院與華為相關團隊組成，並協同深智城 AI 算力平台的聯合攻關團隊，宣布在國產 AI 算力平台上成功跑通 1.6 萬億參數大模型 DeepSeek-V4-Pro 的全參數後訓練（Post-training）。這是全球第三方機構首次在國產算力平台上完成 1.6 萬億參數規模模型的全參數後訓練。相較於從零開始的預訓練（Pre-training），後訓練階段（主要包括監督微調 SFT 與強化學習 RL）側重於通過高質量指令和人類偏好對齊，教導模型遵循指令並執行特定任務。然而，對於 1.6 萬億參數的 MoE 架構模型而言，全參數後訓練依然對底層硬體的顯存容量、多卡間通信頻寬（如 MoE 路由所觸發的全對全通信）以及大規模集群的穩定性有著非常苛刻的要求。聯合攻關團隊依托超千張晶片規模的華為昇騰 910C 算力集群，通過優化分佈式承載與負載均衡策略，成功克服了通信瓶頸。在長達 1500 多步的訓練過程中，系統未出現一次中斷，模型算力利用率（MFU）超過 30%，關鍵算子效率提升了 14%，各項指標均達到工業級運行標準。業內分析指出，華為昇騰 910C 集群在萬億級模型訓練上的成功跑通，印證了國產 AI 芯片在承載超大規模模型深度訓練任務時的技術可行性。由於此前大模型研發的核心預訓練多依賴英偉達 GPU 集群，國產算力此前主要承擔推理（Inference）或小參數微調任務。本次聯合攻關的成功，標誌著國產算力生態正加速從「僅支持推理」向「承載超大參數模型全參數訓練」的技術閉環過渡。（來源：MLion）