हुआवेई और यूएसटीसी ने NVIDIA के एकाधिकार को तोड़ने के लिए सहयोग किया, एसेंड A3 मॉडल की गणना गति 58% बढ़ गई

ME AI संदेश, एनालिटिक्स बीटिंग के मॉनिटरिंग के अनुसार, बड़े मॉडल ट्रेन करने के लिए घरेलू एसेंड (Ascend) चिप्स का उपयोग करना, MoE आर्किटेक्चर के विकास के दौरान स्वदेशी और नियंत्रित AI कैलकुलेशन क्षमता बनाने की प्रमुख दिशा बन गया है। हालांकि, प्रमुख बड़े मॉडल फ्रेमवर्क अधिकांशतः न्विडिया CUDA इकोसिस्टम पर आधारित हैं, और एसेंड प्लेटफॉर्म पर सीधे पोर्ट करते समय हार्डवेयर क्यू स्केड्यूलिंग में असमानता, कैलकुलेशन उपयोग दर में कमी जैसी चुनौतियों का सामना करना पड़ता है। चीनी विज्ञान एवं प्रौद्योगिकी विश्वविद्यालय, हुआवेi और पeking विश्वविद्यालय ने मिलकर HyperParallel-MoE नामक कंपाइलर स्केड्यूलिंग फ्रेमवर्क लॉन्च किया है, जो एसेंड A3 की अद्वितीय हार्डवेयर क्यू के लिए टाइल-स्तरीय (tile-level) नियंत्रण प्रदान करता है, ताकि समानांतर स्केड्यूलिंग में हेटरोजीनस कैलकुलेशन की कुशलता की सीमा को पार किया जा सके। एसेंड A3 में दो प्रकार के कोर हैं: AIC मैट्रिक्स गुणन के लिए जिम्मेदार है, जबकि AIV वेक्टर कैलकुलेशन और संचार को संभालता है। हालांकि, पारंपरिक सीरियल स्केड्यूलिंग में, इन दोनों कोर्स केवल प्रत्यावर्ती रूप से काम करते हैं और प्रत्येक के समय-समय पर सुस्त होने की स्थिति होती है। प्रयोगशाला परीक्षणों में, 256 नोड क्लस्टर पर 671B DeepSeek-शैली मॉडल चलाने पर, AIC की उपयोग दर केवल 67% थी, और 39% एक्सपर्ट रूटिंग संचार देरी महत्वपूर्ण कैलकुलेशन पथ पर प्रकट हुई। HyperParallel-MoE के मुख्य सुधार तीन हैं। पहला, AIV-चालित एक-ओर-लिखने (single-sided write) प्रिमिटिव का डिज़ाइन, जो डेटा टाइल पहुंचते ही कैलकुलेशन को ट्रिगर करता है, पूरे बैच के पहुंचने का इंतज़ार किए बिना। दूसरा, निर्भरता-जागरूक टाइल-आधारित कार्य संज्ञान (dependency-aware tile task generation) का प्रवेश, जो संचार और कैलकुलेशन ऑपरेटर्स को समान स्तर पर सामान्यीकृत करता है। तीसरा, स्थिर स्केड्यूलर के माध्यम से पहले से ही कार्य-अनुक्रम (task sequence) का उत्पादन, जो एकल kernel में AIC/AIV कोर्स को समानांतर में संचालित करता है, और L2 कैश में मध्यवर्ती परिणामों को साझा करके HBM मेमोरी में पुनः-लिखने (write-back) और पढ़ने (read) में होने वाली देरी को कम करता है। परीक्षणों में, 64-नोड संतुलित रूटिंग में, महत्वपूर्ण महत्वपूर्ण मॉड्यूल (MoE-FFN) में 36% से अधिक कमी हुई, जो 58% (1.49 से 1.58x) से अधिक प्रोसेसिंग स्पीड में सुधार हुआ। पूरे सिस्टम में, E2E (एंड-टू-एंड) प्रशिक्षण समय में 8% से 9% सुधार हुआ। इससे पता चलता है कि, AIC/AIV कोर्स को प्रभावी ढंग से स्केड्यूल करने में कंपाइलर और Runtimes महत्वपूर्ण हैं — हार्डवेयर स्पेसिफिकेशन से पहले। (स्रोत: BlockBeats)