Milestone AI Tiongkok: Model DeepSeek 1,6 T parameter berhasil dilatih sepenuhnya pada Ascend 910C domestik

ME AI melaporkan, menurut pemantauan Beating, tim kolaboratif yang terdiri dari Shenzhen Hekou University, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, dan tim terkait Huawei, bekerja sama dengan tim kolaboratif platform AI komputasi Shenzhen Smart City, berhasil menjalankan pelatihan penuh parameter (Post-training) untuk model besar DeepSeek-V4-Pro dengan 1,6 triliun parameter di platform komputasi AI domestik. Ini adalah pertama kalinya lembaga pihak ketiga di seluruh dunia menyelesaikan pelatihan penuh parameter untuk model berskala 1,6 triliun parameter di platform komputasi domestik. Dibandingkan dengan pre-training dari nol, tahap post-training (yang terutama mencakup supervised fine-tuning/SFT dan reinforcement learning/RL) berfokus pada mengajarkan model untuk mengikuti instruksi dan menyelesaikan tugas tertentu melalui instruksi berkualitas tinggi dan alignment dengan preferensi manusia. Namun, bagi model MoE dengan 1,6 triliun parameter, pelatihan penuh parameter tetap menuntut persyaratan sangat ketat terhadap kapasitas memori GPU infrastruktur dasar, bandwidth komunikasi antar-GPU (seperti komunikasi all-to-all yang dipicu oleh routing MoE), serta stabilitas kluster berskala besar. Tim kolaboratif mengandalkan kluster komputasi Huawei Ascend 910C yang mencakup lebih dari seribu chip, dan berhasil mengatasi bottleneck komunikasi melalui optimasi strategi distribusi dan beban seimbang. Selama lebih dari 1.500 langkah pelatihan, sistem tidak mengalami gangguan sama sekali, utilization daya komputasi model (MFU) melebihi 30%, efisiensi operator kunci meningkat 14%, dan semua indikator mencapai standar operasional industri. Analis industri menunjukkan bahwa keberhasilan kluster Huawei Ascend 910C dalam menjalankan pelatihan model skala triliunan membuktikan kelayakan teknis chip AI domestik dalam menangani tugas pelatihan mendalam model berskala sangat besar. Sebelumnya, pelatihan pre-training inti model besar sangat bergantung pada kluster GPU NVIDIA, sehingga komputasi domestik sebelumnya terutama digunakan untuk tugas inferensi atau fine-tuning parameter kecil. Keberhasilan kolaborasi ini menandai transisi cepat ekosistem komputasi domestik dari "hanya mendukung inferensi" menuju "mendukung pelatihan penuh parameter model parameter sangat besar". (Sumber: MLion)