ہواوی اور USTC نے NVIDIA کے منوپولی کو توڑنے کے لیے تعاون کیا، اسینڈ A3 ماڈل کی کمپوٹیشن سپیڈ 58% تک بڑھ گئی

ME AI کی خبر، Beating مانیٹرنگ کے مطابق، بڑے ماڈلز کو تربیت دینے کے لیے چینی Ascend چپس کا استعمال MoE آرکیٹیکچر کی ترقی کا اہم راستہ بن رہا ہے۔ تاہم، زیادہ تر مقبول بڑے ماڈل فریم ورکس نیکوڈیا CUDA ایکوسسٹم پر مبنی ہیں، جبکہ Ascend پلیٹ فارم پر انہیں براہ راست منتقل کرتے وقت ہارڈویئر کی قطاروں کی عدم توازن اور کم حسابی استعمال جیسے چیلنجز کا سامنا ہوتا ہے۔ چینگڈو یونیورسٹی، ہواوی اور پکنگ یونیورسٹی نے مل کر HyperParallel-MoE نامی ایک کمپائلر اور شیڈولنگ فریم ورک تیار کیا ہے، جو Ascend A3 کے منفرد ہارڈویئر قطاروں کے لیے ٹائل لیول پر کنٹرول فراہم کرتا ہے تاکہ متعدد حسابی وسائل کے موازاتی شیڈولنگ میں صرفہ کے بندوبست کو دور کیا جا سکے۔ Ascend A3 میں دو قسم کے کورز ہیں: AIC میٹرکس ضرب کے لیے ذمہ دار ہے، جبکہ AIV ویکٹر کمپوٹیشن اور مواصلات کو سنبھالتا ہے۔ لیکن روایتی آپریٹرز کے سیریل شیڈولنگ کے تحت، دونوں قسم کے کورز صرف متناوب طور پر کام کرتے ہیں اور بار بار بے کار رہتے ہیں۔ تجرباتی ڈیٹا کے مطابق، جب 256 نوڈز کے کلسٹر پر 671B DeepSeek جیسا بڑا ماڈل چلا رہے ہوں، تو AIC کا استعمال صرف 67% ہوتا ہے، اور 39% اسپیشلسٹ راؤٹنگ مواصلات کی تاخیر اہم حساباتی راستوں پر ظاہر ہوتی ہے۔ HyperParallel-MoE کے تین بنیادی تبدیلیاں درج ذیل ہیں: پہلا، AIV سے چلائے جانے والے اون-وَل شُروعات (single-sided write primitives) کا ڈیزائن، جس سے ڈیٹا ٹائل آنے پر فوراً حسابات شروع ہو جاتے ہیں، بغیر پورے بچھڑے کا انتظار کئے۔ دوسرا، وابستگی سمجھنے والا ٹائل ٹاسک جنریشن شامل کرنا، جس سے مواصلات اور حسابات کے آپریٹرز ایک ساتھ تصور کئے جاتے ہیں۔ تینواں، اسٹیٹک شیڈولر کا استعمال جو اپنے اندر اسکرپٹس تخلص کرتا ہے، اور دونوں قسم کے کورز کو اکھنڈ kernel میں موازاتی طور پر چلاتا ہے، جبکہ تھوڑھا L2 کینش استعمال کرتا ہے تاکہ درمیانی نتائج شئیر ہو سکیں اور HBM سست مемوری سے واپس لکھنے اور پڑھنے میں تاخیر کم ہو۔ تجربات سے پتہ چلتا ہے کہ 64 نوڈز پر متوازن راؤٹنگ پر، اسپیشلسٹ حسابات (MoE-FFN) والے ماڈولز میں تاخیر تقریباً 36% تک کم ہو جاتی ہے، جس سے ڈیٹا پروسسنگ رفتار زیادہ سے زیادہ 58% تک بڑھ جاتی ہے (1.49 سے 1.58 ضعف تک)۔ مجموعی طور پر، انجن کے آخر تک اختتام تک اسٹپ لینگتھ مزید 8% سے 9% تک بڑھ جاتا ہے۔ اس سے ثابت ہوتا ہے کہ Ascend کا عملی صرفہ صرف ہارڈوئیر سپس فکشن پر منحصر نہیں بلکہ اس بات پر بھی منحصر ہے کہ کمپائلر اور رن ٹائم AIC/AIV کورز کو مؤثر طرīقے سے شیڈول کرتا ہے۔ (ذرائع: BlockBeats)