Huawei ve USTC, NVIDIA'nın monopolünü kırıyor, Ascend A3 modeli hesaplama hızını %58 artırıyor

iconKuCoinFlash
Paylaş
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconÖzet

expand icon
Huawei ve USTC, Ascend A3 çipinin büyük model eğitimi performansını artırmak için HyperParallel-MoE çerçevesini geliştirdi. Tasarım, karo düzeyinde donanım kuyruklarını yöneterek zamanlamayı iyileştirir ve AIC ile AIV çekirdeklerinin paralel çalışmasını sağlar. 64-node kümesinde yapılan testler, uzman hesaplamalarda %58 hız artışı ve end-to-end eğitim hızında %8-9 artış gösterdi. Bu adım, AI çip pazarında destek ve direnç seviyelerini değiştirebilir ve yerel teknoloji benimsemesi için daha iyi bir risk-getiri oranı sunar.
ME AI Haberi, Beating İzleme sistemine göre, büyük MoE mimarisinde gelişmeler sırasında, yerel昇腾 (Ascend) çipleriyle büyük modelleri eğitmek, bağımsız ve kontrol edilebilir AI hesaplama gücü oluşturmanın kilit yönü haline gelmiştir. Ancak,主流 büyük model çerçeveleri çoğunlukla NVIDIA CUDA ekosistemine dayanarak geliştirilmiştir ve Ascend platformuna doğrudan taşındığında, donanım kuyruğu zamanlamasındaki dengesizlik ve hesaplama gücü kullanım oranının düşük olması gibi zorluklarla karşılaşılmaktadır. Çin Bilimler Akademisi, Huawei ve Pekin Üniversitesi gibi kurumlar birlikte HyperParallel-MoE adlı bir derleyici zamanlayıcı çerçevesini tanıttı; bu çerçeve, Ascend A3’ün benzersiz donanım kuyruklarına yönelik parçalı (tile-level) kontrolü hedefliyor ve heterojen hesaplama gücünün paralel zamanlamadaki verimlilik darboğazını aşmayı amaçlıyor. Ascend A3, iki tür çekirdeğe sahiptir: AIC matris çarpma işlemlerini yürütürken, AIV vektör hesaplamalarını ve iletişimi yönetir. Ancak geleneksel operatörlerin sıralı zamanlaması altında, bu iki çekirdek yalnızca alternatif olarak çalışır ve sırayla boşta kalır. Gerçek test verilerine göre, 256 düğüm kümesinde 671B boyutundaki DeepSeek tarzı büyük bir model çalıştırıldığında, AIC kullanım oranı sadece %67’dir ve %39’luk uzman yönlendirme iletişim gecikmesi kritik hesaplama yollarında ortaya çıkmaktadır. HyperParallel-MoE’nin üç temel değişikliği vardır. Birincisi, AIV tabanlı tek taraflı yazma primitive’leri tasarlandı; bu sayede veri parçaları ulaştığında hesaplama tetiklenir, tüm toplu verinin tamamlanmasını beklemeye gerek kalmaz. İkincisi, bağımlılık algılayan parçalı görev üretimi getirildi; iletişim ve hesaplama operatörleri tek bir soyutlama altında birleştirildi. Üçüncüsü, statik bir zamanlayıcı tarafından görev dizileri önceden oluşturuldu; bu sayede tek bir kernel içinde iki çekirdek paralel olarak çalıştırıldı ve yüksek hızda L2 önbellek aracılığıyla ara sonuçlar paylaşıldı, böylece HBM yavaş belleğe yazma ve okuma gecikmeleri azaltıldı. Testler, 64 düğüm dengeli yönlendirme altında, uzman hesaplamalarını yürüten modülün (MoE-FFN) gecikmesinin yaklaşık %36 azaldığını gösterdi; bu da veri işleme hızının en fazla %58 arttığı anlamına gelir (yani hızlandırma oranı 1,49 ile 1,58 arasında). Tüm sistemdeki uçtan uca çalıştırma sırasında, tek bir eğitim adımının hızı da %8 ila %9 oranında arttı. Bu durum, Ascend’in gerçek verimliliğinin yalnızca donanım spesifikasyonlarına değil, aynı zamanda AIC/AIV çekirdeklerini etkili bir şekilde zamanlayan derleyici ve çalışma zamanına da bağlı olduğunu göstermektedir. (Kaynak: BlockBeats)
Yasal Uyarı: Bu sayfadaki bilgiler üçüncü şahıslardan alınmış olabilir ve KuCoin'in görüşlerini veya fikirlerini yansıtmayabilir. Bu içerik, herhangi bir beyan veya garanti olmaksızın yalnızca genel bilgilendirme amacıyla sağlanmıştır ve finansal veya yatırım tavsiyesi olarak yorumlanamaz. KuCoin, herhangi bir hata veya eksiklikten veya bu bilgilerin kullanımından kaynaklanan sonuçtan sorumlu değildir. Dijital varlıklara yapılan yatırımlar riskli olabilir. Lütfen bir ürünün risklerini ve risk toleransınızı kendi finansal koşullarınıza göre dikkatlice değerlendirin. Daha fazla bilgi için lütfen Kullanım Koşullarımıza ve Risk Açıklamamıza bakınız.