Huawei dan USTC Bekerjasama untuk Menghancurkan Monopoli NVIDIA, Kelajuan Pengiraan Model Ascend A3 Meningkat 58%
KuCoinFlash
Kongsi
Ringkasan
Huawei dan USTC telah membangun kerangka kerja HyperParallel-MoE untuk meningkatkan prestasi cip Ascend A3 dalam latihan model besar. Reka bentuk ini meningkatkan penjadualan dengan menguruskan antrian peranti pada aras tile, membolehkan teras AIC dan AIV beroperasi secara selari. Ujian pada kluster 64 nod menunjukkan peningkatan kelajuan sebanyak 58% dalam pengiraan pakar dan peningkatan 8-9% dalam kelajuan latihan end-to-end. Langkah ini boleh mengubah paras sokongan dan rintangan dalam pasaran cip AI, menawarkan nisbah risiko-ke-impak yang lebih baik untuk pengambilan teknologi tempatan.
ME AI mesej, menurut pemantauan Beating, dalam perkembangan besar-besaran arsitektur MoE, pelatihan model besar menggunakan cip Ascend buatan negara sendiri telah menjadi arah utama dalam membina kuasa komputasi AI yang boleh dikendalikan sendiri. Namun, kebanyakan kerangka kerja model besar utama dibangunkan berdasarkan ekosistem CUDA NVIDIA, dan apabila dipindahkan secara langsung ke platform Ascend, ia mudah menghadapi cabaran seperti penjadualan antrian peranti yang tidak seimbang dan penggunaan kuasa komputasi yang rendah. Universiti Sains dan Teknologi China, Huawei, dan Universiti Peking telah bersama-sama memperkenalkan kerangka kerja kompilasi dan penjadualan HyperParallel-MoE, yang dirancang khas untuk pengawasan peringkat tile pada antrian peranti Ascend A3 yang unik, dengan tujuan mengatasi bottleneck kecekapan dalam penjadualan paralel kuasa komputasi heterogen. Ascend A3 mempunyai dua jenis teras: AIC bertanggungjawab atas pendaraban matriks, manakala AIV mengendalikan pengiraan vektor dan komunikasi. Namun, di bawah penjadualan operator secara siri, kedua-dua jenis teras hanya boleh beroperasi secara bergilir-ganti dengan masa lapang secara berkala. Data ujian menunjukkan bahawa dalam kluster 256 nod yang menjalankan model besar bergaya DeepSeek 671B, penggunaan AIC hanya 67%, dan 39% latensi komunikasi penerusan pakar terdedah kepada laluan pengiraan kritikal. Tiga perubahan utama dalam HyperParallel-MoE ialah: Pertama, merekabentuk primitif penulisan sepihak yang dipacu oleh AIV, supaya pengiraan dapat dipicu segera apabila tile data tiba, tanpa perlu menunggu keseluruhan batch lengkap. Kedua, memperkenalkan penghasilan tugas tile yang peka terhadap ketergantungan, yang mengabstrakkan operator komunikasi dan pengiraan secara seragam. Ketiga, menggunakan penjadual statik untuk menghasilkan urutan tugas secara pra-menghasilkan, yang menggerakkan kedua-dua jenis teras secara serentak dalam kernel tunggal, serta memanfaatkan cache L2 berkelajuan tinggi untuk berkongsi hasil sementara, mengurangkan latensi penulisan semula dan pembacaan memori HBM yang perlahan. Ujian menunjukkan bahawa dalam penjadualan seimbang 64 nod, latensi modul teras pengiraan pakar (MoE-FFN) berkurang sebanyak 36%, setara dengan peningkatan kelajuan pemprosesan data sehingga 58% (iaitu peningkatan 1.49 hingga 1.58 kali). Dalam pelaksanaan end-to-end keseluruhan mesin, kelajuan pelatihan langkah tunggal juga meningkat sebanyak 8% hingga 9%. Ini menunjukkan bahawa kecekapan sebenar Ascend tidak hanya bergantung pada spesifikasi peranti keras, tetapi lebih kepada sama ada kompiler dan runtime mampu menjadualkan teras AIC/AIV secara berkesan. (Sumber: BlockBeats)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.