Huawei dan USTC Bekerjasama untuk Menghancurkan Monopoli NVIDIA, Kelajuan Pengiraan Model Ascend A3 Meningkat 58%

ME AI mesej, menurut pemantauan Beating, dalam perkembangan besar-besaran arsitektur MoE, pelatihan model besar menggunakan cip Ascend buatan negara sendiri telah menjadi arah utama dalam membina kuasa komputasi AI yang boleh dikendalikan sendiri. Namun, kebanyakan kerangka kerja model besar utama dibangunkan berdasarkan ekosistem CUDA NVIDIA, dan apabila dipindahkan secara langsung ke platform Ascend, ia mudah menghadapi cabaran seperti penjadualan antrian peranti yang tidak seimbang dan penggunaan kuasa komputasi yang rendah. Universiti Sains dan Teknologi China, Huawei, dan Universiti Peking telah bersama-sama memperkenalkan kerangka kerja kompilasi dan penjadualan HyperParallel-MoE, yang dirancang khas untuk pengawasan peringkat tile pada antrian peranti Ascend A3 yang unik, dengan tujuan mengatasi bottleneck kecekapan dalam penjadualan paralel kuasa komputasi heterogen. Ascend A3 mempunyai dua jenis teras: AIC bertanggungjawab atas pendaraban matriks, manakala AIV mengendalikan pengiraan vektor dan komunikasi. Namun, di bawah penjadualan operator secara siri, kedua-dua jenis teras hanya boleh beroperasi secara bergilir-ganti dengan masa lapang secara berkala. Data ujian menunjukkan bahawa dalam kluster 256 nod yang menjalankan model besar bergaya DeepSeek 671B, penggunaan AIC hanya 67%, dan 39% latensi komunikasi penerusan pakar terdedah kepada laluan pengiraan kritikal. Tiga perubahan utama dalam HyperParallel-MoE ialah: Pertama, merekabentuk primitif penulisan sepihak yang dipacu oleh AIV, supaya pengiraan dapat dipicu segera apabila tile data tiba, tanpa perlu menunggu keseluruhan batch lengkap. Kedua, memperkenalkan penghasilan tugas tile yang peka terhadap ketergantungan, yang mengabstrakkan operator komunikasi dan pengiraan secara seragam. Ketiga, menggunakan penjadual statik untuk menghasilkan urutan tugas secara pra-menghasilkan, yang menggerakkan kedua-dua jenis teras secara serentak dalam kernel tunggal, serta memanfaatkan cache L2 berkelajuan tinggi untuk berkongsi hasil sementara, mengurangkan latensi penulisan semula dan pembacaan memori HBM yang perlahan. Ujian menunjukkan bahawa dalam penjadualan seimbang 64 nod, latensi modul teras pengiraan pakar (MoE-FFN) berkurang sebanyak 36%, setara dengan peningkatan kelajuan pemprosesan data sehingga 58% (iaitu peningkatan 1.49 hingga 1.58 kali). Dalam pelaksanaan end-to-end keseluruhan mesin, kelajuan pelatihan langkah tunggal juga meningkat sebanyak 8% hingga 9%. Ini menunjukkan bahawa kecekapan sebenar Ascend tidak hanya bergantung pada spesifikasi peranti keras, tetapi lebih kepada sama ada kompiler dan runtime mampu menjadualkan teras AIC/AIV secara berkesan. (Sumber: BlockBeats)