Huawei ve USTC, NVIDIA'nın monopolünü kırıyor, Ascend A3 modeli hesaplama hızını %58 artırıyor

ME AI Haberi, Beating İzleme sistemine göre, büyük MoE mimarisinde gelişmeler sırasında, yerel昇腾 (Ascend) çipleriyle büyük modelleri eğitmek, bağımsız ve kontrol edilebilir AI hesaplama gücü oluşturmanın kilit yönü haline gelmiştir. Ancak,主流 büyük model çerçeveleri çoğunlukla NVIDIA CUDA ekosistemine dayanarak geliştirilmiştir ve Ascend platformuna doğrudan taşındığında, donanım kuyruğu zamanlamasındaki dengesizlik ve hesaplama gücü kullanım oranının düşük olması gibi zorluklarla karşılaşılmaktadır. Çin Bilimler Akademisi, Huawei ve Pekin Üniversitesi gibi kurumlar birlikte HyperParallel-MoE adlı bir derleyici zamanlayıcı çerçevesini tanıttı; bu çerçeve, Ascend A3’ün benzersiz donanım kuyruklarına yönelik parçalı (tile-level) kontrolü hedefliyor ve heterojen hesaplama gücünün paralel zamanlamadaki verimlilik darboğazını aşmayı amaçlıyor. Ascend A3, iki tür çekirdeğe sahiptir: AIC matris çarpma işlemlerini yürütürken, AIV vektör hesaplamalarını ve iletişimi yönetir. Ancak geleneksel operatörlerin sıralı zamanlaması altında, bu iki çekirdek yalnızca alternatif olarak çalışır ve sırayla boşta kalır. Gerçek test verilerine göre, 256 düğüm kümesinde 671B boyutundaki DeepSeek tarzı büyük bir model çalıştırıldığında, AIC kullanım oranı sadece %67’dir ve %39’luk uzman yönlendirme iletişim gecikmesi kritik hesaplama yollarında ortaya çıkmaktadır. HyperParallel-MoE’nin üç temel değişikliği vardır. Birincisi, AIV tabanlı tek taraflı yazma primitive’leri tasarlandı; bu sayede veri parçaları ulaştığında hesaplama tetiklenir, tüm toplu verinin tamamlanmasını beklemeye gerek kalmaz. İkincisi, bağımlılık algılayan parçalı görev üretimi getirildi; iletişim ve hesaplama operatörleri tek bir soyutlama altında birleştirildi. Üçüncüsü, statik bir zamanlayıcı tarafından görev dizileri önceden oluşturuldu; bu sayede tek bir kernel içinde iki çekirdek paralel olarak çalıştırıldı ve yüksek hızda L2 önbellek aracılığıyla ara sonuçlar paylaşıldı, böylece HBM yavaş belleğe yazma ve okuma gecikmeleri azaltıldı. Testler, 64 düğüm dengeli yönlendirme altında, uzman hesaplamalarını yürüten modülün (MoE-FFN) gecikmesinin yaklaşık %36 azaldığını gösterdi; bu da veri işleme hızının en fazla %58 arttığı anlamına gelir (yani hızlandırma oranı 1,49 ile 1,58 arasında). Tüm sistemdeki uçtan uca çalıştırma sırasında, tek bir eğitim adımının hızı da %8 ila %9 oranında arttı. Bu durum, Ascend’in gerçek verimliliğinin yalnızca donanım spesifikasyonlarına değil, aynı zamanda AIC/AIV çekirdeklerini etkili bir şekilde zamanlayan derleyici ve çalışma zamanına da bağlı olduğunu göstermektedir. (Kaynak: BlockBeats)