Huawei dan USTC Berkolaborasi untuk Mengakhiri Monopoli NVIDIA, Kecepatan Komputasi Model Ascend A3 Meningkat 58%

ME AI Berita, menurut pemantauan Beating, dalam perkembangan arsitektur MoE skala besar, pelatihan model besar menggunakan chip Ascend buatan dalam negeri telah menjadi arah kunci dalam membangun daya komputasi AI yang mandiri dan terkendali. Namun, sebagian besar kerangka kerja model besar saat ini dikembangkan berdasarkan ekosistem CUDA NVIDIA, sehingga saat dipindahkan langsung ke platform Ascend sering menghadapi tantangan seperti penjadwalan antrian perangkat keras yang tidak seimbang dan pemanfaatan daya komputasi yang rendah. Universitas Ilmu dan Teknologi Tiongkok, Huawei, serta Universitas Peking secara bersama-sama meluncurkan kerangka kerja kompilasi dan penjadwalan HyperParallel-MoE, yang dirancang khusus untuk mengontrol tingkat ubin (tile-level) pada antrian perangkat keras Ascend A3 yang unik, dengan tujuan mengatasi hambatan efisiensi dalam penjadwalan paralel daya komputasi heterogen. Ascend A3 memiliki dua jenis inti: AIC bertanggung jawab atas perkalian matriks, sementara AIV menangani perhitungan vektor dan komunikasi. Namun, di bawah penjadwalan operator serial tradisional, kedua jenis inti hanya dapat bekerja bergantian dan bergiliran menganggur. Data pengujian menunjukkan bahwa pada kluster 256 node yang menjalankan model besar bergaya DeepSeek 671B, pemanfaatan AIC hanya mencapai 67%, dan 39% latensi komunikasi routing ahli terpapar pada jalur komputasi kritis. Tiga perubahan utama dalam HyperParallel-MoE adalah sebagai berikut. Pertama, merancang primitif penulisan satu sisi yang didorong oleh AIV, sehingga data ubin langsung memicu komputasi begitu tiba, tanpa perlu menunggu seluruh batch lengkap. Kedua, memperkenalkan pembuatan tugas ubin yang menyadari ketergantungan, yang secara seragam mengabstraksi operator komunikasi dan komputasi. Ketiga, menggunakan scheduler statis untuk menghasilkan urutan tugas secara pra-komputasi, mendorong kedua jenis inti bekerja secara paralel dalam satu kernel, serta memanfaatkan cache L2 berkecepatan tinggi untuk berbagi hasil sementara, mengurangi latensi penulisan ulang dan pembacaan memori HBM yang lambat. Pengujian menunjukkan bahwa pada routing seimbang 64 node, latensi modul inti yang bertanggung jawab atas komputasi ahli (MoE-FFN) berkurang sekitar 36%, setara dengan peningkatan kecepatan pemrosesan data hingga 58% (yaitu percepatan 1,49 hingga 1,58 kali). Dalam eksekusi end-to-end keseluruhan mesin, kecepatan pelatihan satu langkah juga meningkat secara bersamaan sebesar 8% hingga 9%. Ini menunjukkan bahwa efisiensi nyata Ascend tidak hanya ditentukan oleh spesifikasi perangkat keras, tetapi lebih pada sejauh mana compiler dan runtime mampu menjadwalkan inti AIC/AIV secara efisien. (Sumber: BlockBeats)