هواوي وUTSC تتعاونان لكسر احتكار نيفيديا، ويزداد سرعة حسابات نموذج Ascend A3 بنسبة 58%
KuCoinFlash
مشاركة
ملخص
طورت هواوي وUniversity of Science and Technology of China (USTC) إطار HyperParallel-MoE لتعزيز أداء شريحة Ascend A3 في تدريب النماذج الكبيرة. يحسن التصميم الجدولة من خلال إدارة طوابير الأجهزة على مستوى الشرائح، مما يسمح لوحدات AIC وAIV بالعمل بالتوازي. أظهرت الاختبارات على مجموعة عقد 64 زيادة بنسبة 58% في سرعة حساب الخبراء وارتفاعًا بنسبة 8-9% في سرعة التدريب الكاملة. يمكن أن يؤدي هذا التحرك إلى تغيير مستويات الدعم والمقاومة في سوق شرائح الذكاء الاصطناعي، وتقديم نسبة مخاطرة إلى مكافأة أفضل لتبني التكنولوجيا المحلية.
ME AI رسالة، وفقًا لمراقبة Beating، أصبح تدريب النماذج الكبيرة باستخدام الرقائق الصينية المحلية Ascend جزءًا أساسيًا من بناء قدرات ذكاء اصطناعي مستقلة وقابلة للتحكم. ومع ذلك، فإن معظم الإطارات الرئيسية للنماذج الكبيرة مبنية على بيئة NVIDIA CUDA، وعند نقلها مباشرة إلى منصة Ascend، تواجه تحديات مثل عدم توازن جدولة طوابير الأجهزة واستخدام منخفض للقوة الحسابية. وقد أطلقت جامعة الصين للعلوم والتكنولوجيا وهواوي وجامعة بكين معًا إطارًا للترجمة والجدولة HyperParallel-MoE، والذي يُجري تحكمًا على مستوى الشريحة (tile-level) لطوابير الأجهزة الفريدة لـ Ascend A3، بهدف التغلب على عتبة الكفاءة في جدولة القدرات المتنوعة. يحتوي Ascend A3 على نوعين من النوى: AIC مسؤول عن ضرب المصفوفات، بينما AIV يعالج الحسابات المتجهية والاتصالات. ولكن في الجدولة التسلسلية التقليدية للعوامل، لا يمكن للنوعين العمل إلا بالتناوب مع توقف كل منهما بالتناوب. أظهرت بيانات الاختبار أنه عند تشغيل نموذج كبير بحجم 671B على شكل DeepSeek في عقدة مكونة من 256 عقدة، كانت كفاءة استخدام AIC فقط 67%، كما أن 39% من تأخيرات الاتصال في توجيه الخبراء ظهرت على مسار الحساب الأساسي. تتضمن التغييرات الأساسية في HyperParallel-MoE ثلاثة عناصر: أولاً، تصميم أمر كتابة أحادي الاتجاه مُدار بواسطة AIV، بحيث يُحفّز الحساب فور وصول شريحة البيانات دون انتظار اكتمال الدفعة بأكملها. ثانيًا، إدخال إنشاء مهام شريحة مدرك للاعتمادات، حيث يتم تجريد العوامل الحسابية والاتصالية بشكل موحد. ثالثًا، استخدام جدولة ثابتة لإنشاء تسلسل المهام مسبقًا، مما يُحرّك كلا النوعين من النوى بالتوازي داخل نواة واحدة، ويستخدم ذاكرة التخزين المؤقت L2 السريعة لمشاركة النتائج الوسيطة، مما يقلل من تأخير الكتابة والإرجاع إلى ذاكرة HBM البطيئة. أظهرت الاختبارات أنه في توجيه متوازن بـ 64 عقدة، قلّصت وحدة النوى المسؤولة عن الحسابات الخبيرة (MoE-FFN) التأخير بنسبة حوالي 36%، ما يعادل زيادة في سرعة معالجة البيانات بنسبة تصل إلى 58% (أي زيادة من 1.49 إلى 1.58 مرة). وفي التشغيل الكامل من البداية إلى النهاية، زادت سرعة التدريب خطوة بخطوة أيضًا بنسبة 8% إلى 9%. وهذا يشير إلى أن كفاءة Ascend الفعلية لا تعتمد فقط على المواصفات المادية، بل أيضًا على قدرة المترجم ووقت التشغيل على جدولة نوى AIC/AIV بكفاءة عالية. (المصدر: BlockBeats)
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.