Milestone AI Tiongkok: Model DeepSeek 1,6 T parameter berhasil dilatih sepenuhnya pada Ascend 910C domestik
KuCoinFlash
Bagikan
Ringkasan
Tim gabungan yang mencakup Shenzhen HeTao College, HIT (Shenzhen), Shenzhen Institute of Big Data, dan Huawei telah menyelesaikan pelatihan penuh model DeepSeek-V4-Pro dengan 1,6 triliun parameter di platform AI Ascend 910C domestik. Berita on-chain ini menandai pertama kalinya kelompok pihak ketiga mencapai pelatihan penuh model dengan 1,6T parameter menggunakan lebih dari 1.000 chip Ascend 910C. Tim tersebut meningkatkan utilisasi komputasi model lebih dari 30% dan efisiensi operator kunci sebesar 14%, tanpa kegagalan sistem selama lebih dari 1.500 langkah pelatihan. Berita AI + crypto ini menyoroti meningkatnya kemampuan dan infrastruktur AI domestik.
ME AI melaporkan, menurut pemantauan Beating, tim kolaboratif yang terdiri dari Shenzhen Hekou University, Harbin Institute of Technology (Shenzhen), Shenzhen Big Data Research Institute, dan tim terkait Huawei, bekerja sama dengan tim kolaboratif platform AI komputasi Shenzhen Smart City, berhasil menjalankan pelatihan penuh parameter (Post-training) untuk model besar DeepSeek-V4-Pro dengan 1,6 triliun parameter di platform komputasi AI domestik. Ini adalah pertama kalinya lembaga pihak ketiga di seluruh dunia menyelesaikan pelatihan penuh parameter untuk model berskala 1,6 triliun parameter di platform komputasi domestik. Dibandingkan dengan pre-training dari nol, tahap post-training (yang terutama mencakup supervised fine-tuning/SFT dan reinforcement learning/RL) berfokus pada mengajarkan model untuk mengikuti instruksi dan menyelesaikan tugas tertentu melalui instruksi berkualitas tinggi dan alignment dengan preferensi manusia. Namun, bagi model MoE dengan 1,6 triliun parameter, pelatihan penuh parameter tetap menuntut persyaratan sangat ketat terhadap kapasitas memori GPU infrastruktur dasar, bandwidth komunikasi antar-GPU (seperti komunikasi all-to-all yang dipicu oleh routing MoE), serta stabilitas kluster berskala besar. Tim kolaboratif mengandalkan kluster komputasi Huawei Ascend 910C yang mencakup lebih dari seribu chip, dan berhasil mengatasi bottleneck komunikasi melalui optimasi strategi distribusi dan beban seimbang. Selama lebih dari 1.500 langkah pelatihan, sistem tidak mengalami gangguan sama sekali, utilization daya komputasi model (MFU) melebihi 30%, efisiensi operator kunci meningkat 14%, dan semua indikator mencapai standar operasional industri. Analis industri menunjukkan bahwa keberhasilan kluster Huawei Ascend 910C dalam menjalankan pelatihan model skala triliunan membuktikan kelayakan teknis chip AI domestik dalam menangani tugas pelatihan mendalam model berskala sangat besar. Sebelumnya, pelatihan pre-training inti model besar sangat bergantung pada kluster GPU NVIDIA, sehingga komputasi domestik sebelumnya terutama digunakan untuk tugas inferensi atau fine-tuning parameter kecil. Keberhasilan kolaborasi ini menandai transisi cepat ekosistem komputasi domestik dari "hanya mendukung inferensi" menuju "mendukung pelatihan penuh parameter model parameter sangat besar". (Sumber: MLion)
Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini.
Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.