ہواوی اور USTC نے NVIDIA کے منوپولی کو توڑنے کے لیے تعاون کیا، اسینڈ A3 ماڈل کی کمپوٹیشن سپیڈ 58% تک بڑھ گئی

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ہواوی اور USTC نے بڑے ماڈل ٹریننگ میں Ascend A3 چپ کی کارکردگی کو بڑھانے کے لیے HyperParallel-MoE فریم ورک تیار کیا ہے۔ یہ ڈیزائن ٹائل سطح پر ہارڈویئر کیو کے انتظام سے اسکیڈولنگ میں بہتری لاتا ہے، جس سے AIC اور AIV کورز متوازی طور پر چل سکتے ہیں۔ 64 نوڈ کلسٹر پر کیے گئے ٹیسٹس نے ایکسپرٹ کمپوٹیشن میں 58 فیصد کی رفتار میں اضافہ اور مجموعی ٹریننگ رفتار میں 8-9 فیصد کا اضافہ دکھایا۔ یہ اقدام AI چپ مارکیٹ میں سپورٹ اور ریزسٹنس لیولز کو بدل سکتا ہے، اور مقامی ٹیکنالوجی کے استعمال کے لیے بہتر رک/ریوارڈ نسبت فراہم کرتا ہے۔
ME AI کی خبر، Beating مانیٹرنگ کے مطابق، بڑے ماڈلز کو تربیت دینے کے لیے چینی Ascend چپس کا استعمال MoE آرکیٹیکچر کی ترقی کا اہم راستہ بن رہا ہے۔ تاہم، زیادہ تر مقبول بڑے ماڈل فریم ورکس نیکوڈیا CUDA ایکوسسٹم پر مبنی ہیں، جبکہ Ascend پلیٹ فارم پر انہیں براہ راست منتقل کرتے وقت ہارڈویئر کی قطاروں کی عدم توازن اور کم حسابی استعمال جیسے چیلنجز کا سامنا ہوتا ہے۔ چینگڈو یونیورسٹی، ہواوی اور پکنگ یونیورسٹی نے مل کر HyperParallel-MoE نامی ایک کمپائلر اور شیڈولنگ فریم ورک تیار کیا ہے، جو Ascend A3 کے منفرد ہارڈویئر قطاروں کے لیے ٹائل لیول پر کنٹرول فراہم کرتا ہے تاکہ متعدد حسابی وسائل کے موازاتی شیڈولنگ میں صرفہ کے بندوبست کو دور کیا جا سکے۔ Ascend A3 میں دو قسم کے کورز ہیں: AIC میٹرکس ضرب کے لیے ذمہ دار ہے، جبکہ AIV ویکٹر کمپوٹیشن اور مواصلات کو سنبھالتا ہے۔ لیکن روایتی آپریٹرز کے سیریل شیڈولنگ کے تحت، دونوں قسم کے کورز صرف متناوب طور پر کام کرتے ہیں اور بار بار بے کار رہتے ہیں۔ تجرباتی ڈیٹا کے مطابق، جب 256 نوڈز کے کلسٹر پر 671B DeepSeek جیسا بڑا ماڈل چلا رہے ہوں، تو AIC کا استعمال صرف 67% ہوتا ہے، اور 39% اسپیشلسٹ راؤٹنگ مواصلات کی تاخیر اہم حساباتی راستوں پر ظاہر ہوتی ہے۔ HyperParallel-MoE کے تین بنیادی تبدیلیاں درج ذیل ہیں: پہلا، AIV سے چلائے جانے والے اون-وَل شُروعات (single-sided write primitives) کا ڈیزائن، جس سے ڈیٹا ٹائل آنے پر فوراً حسابات شروع ہو جاتے ہیں، بغیر پورے بچھڑے کا انتظار کئے۔ دوسرا، وابستگی سمجھنے والا ٹائل ٹاسک جنریشن شامل کرنا، جس سے مواصلات اور حسابات کے آپریٹرز ایک ساتھ تصور کئے جاتے ہیں۔ تینواں، اسٹیٹک شیڈولر کا استعمال جو اپنے اندر اسکرپٹس تخلص کرتا ہے، اور دونوں قسم کے کورز کو اکھنڈ kernel میں موازاتی طور پر چلاتا ہے، جبکہ تھوڑھا L2 کینش استعمال کرتا ہے تاکہ درمیانی نتائج شئیر ہو سکیں اور HBM سست مемوری سے واپس لکھنے اور پڑھنے میں تاخیر کم ہو۔ تجربات سے پتہ چلتا ہے کہ 64 نوڈز پر متوازن راؤٹنگ پر، اسپیشلسٹ حسابات (MoE-FFN) والے ماڈولز میں تاخیر تقریباً 36% تک کم ہو جاتی ہے، جس سے ڈیٹا پروسسنگ رفتار زیادہ سے زیادہ 58% تک بڑھ جاتی ہے (1.49 سے 1.58 ضعف تک)۔ مجموعی طور پر، انجن کے آخر تک اختتام تک اسٹپ لینگتھ مزید 8% سے 9% تک بڑھ جاتا ہے۔ اس سے ثابت ہوتا ہے کہ Ascend کا عملی صرفہ صرف ہارڈوئیر سپس فکشن پر منحصر نہیں بلکہ اس بات پر بھی منحصر ہے کہ کمپائلر اور رن ٹائم AIC/AIV کورز کو مؤثر طرīقے سے شیڈول کرتا ہے۔ (ذرائع: BlockBeats)
اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔