هواوي وUTSC تتعاونان لكسر احتكار نيفيديا، ويزداد سرعة حسابات نموذج Ascend A3 بنسبة 58%

ME AI رسالة، وفقًا لمراقبة Beating، أصبح تدريب النماذج الكبيرة باستخدام الرقائق الصينية المحلية Ascend جزءًا أساسيًا من بناء قدرات ذكاء اصطناعي مستقلة وقابلة للتحكم. ومع ذلك، فإن معظم الإطارات الرئيسية للنماذج الكبيرة مبنية على بيئة NVIDIA CUDA، وعند نقلها مباشرة إلى منصة Ascend، تواجه تحديات مثل عدم توازن جدولة طوابير الأجهزة واستخدام منخفض للقوة الحسابية. وقد أطلقت جامعة الصين للعلوم والتكنولوجيا وهواوي وجامعة بكين معًا إطارًا للترجمة والجدولة HyperParallel-MoE، والذي يُجري تحكمًا على مستوى الشريحة (tile-level) لطوابير الأجهزة الفريدة لـ Ascend A3، بهدف التغلب على عتبة الكفاءة في جدولة القدرات المتنوعة. يحتوي Ascend A3 على نوعين من النوى: AIC مسؤول عن ضرب المصفوفات، بينما AIV يعالج الحسابات المتجهية والاتصالات. ولكن في الجدولة التسلسلية التقليدية للعوامل، لا يمكن للنوعين العمل إلا بالتناوب مع توقف كل منهما بالتناوب. أظهرت بيانات الاختبار أنه عند تشغيل نموذج كبير بحجم 671B على شكل DeepSeek في عقدة مكونة من 256 عقدة، كانت كفاءة استخدام AIC فقط 67%، كما أن 39% من تأخيرات الاتصال في توجيه الخبراء ظهرت على مسار الحساب الأساسي. تتضمن التغييرات الأساسية في HyperParallel-MoE ثلاثة عناصر: أولاً، تصميم أمر كتابة أحادي الاتجاه مُدار بواسطة AIV، بحيث يُحفّز الحساب فور وصول شريحة البيانات دون انتظار اكتمال الدفعة بأكملها. ثانيًا، إدخال إنشاء مهام شريحة مدرك للاعتمادات، حيث يتم تجريد العوامل الحسابية والاتصالية بشكل موحد. ثالثًا، استخدام جدولة ثابتة لإنشاء تسلسل المهام مسبقًا، مما يُحرّك كلا النوعين من النوى بالتوازي داخل نواة واحدة، ويستخدم ذاكرة التخزين المؤقت L2 السريعة لمشاركة النتائج الوسيطة، مما يقلل من تأخير الكتابة والإرجاع إلى ذاكرة HBM البطيئة. أظهرت الاختبارات أنه في توجيه متوازن بـ 64 عقدة، قلّصت وحدة النوى المسؤولة عن الحسابات الخبيرة (MoE-FFN) التأخير بنسبة حوالي 36%، ما يعادل زيادة في سرعة معالجة البيانات بنسبة تصل إلى 58% (أي زيادة من 1.49 إلى 1.58 مرة). وفي التشغيل الكامل من البداية إلى النهاية، زادت سرعة التدريب خطوة بخطوة أيضًا بنسبة 8% إلى 9%. وهذا يشير إلى أن كفاءة Ascend الفعلية لا تعتمد فقط على المواصفات المادية، بل أيضًا على قدرة المترجم ووقت التشغيل على جدولة نوى AIC/AIV بكفاءة عالية. (المصدر: BlockBeats)