हुआवेई और यूएसटीसी ने NVIDIA के एकाधिकार को तोड़ने के लिए सहयोग किया, एसेंड A3 मॉडल की गणना गति 58% बढ़ गई
KuCoinFlash
साझा करें
सारांश
हुआवेई और यूएसटीसी ने बड़े मॉडल प्रशिक्षण में एसेंड A3 चिप के प्रदर्शन को बढ़ाने के लिए हाइपरपैरेलल-मोई फ्रेमवर्क विकसित किया है। इस डिज़ाइन में टाइल स्तर पर हार्डवेयर कतारों के प्रबंधन द्वारा शेड्यूलिंग में सुधार किया गया है, जिससे AIC और AIV कोर समानांतर रूप से चल सकते हैं। 64-नोड क्लस्टर पर किए गए परीक्षणों में विशेषज्ञ गणना में 58% की गति वृद्धि और अंत-से-अंत प्रशिक्षण गति में 8-9% की वृद्धि देखी गई। यह कदम AI चिप बाजार में समर्थन और प्रतिरोध स्तरों को बदल सकता है, और घरेलू प्रौद्योगिकी अपनाने के लिए बेहतर जोखिम-से-लाभ अनुपात प्रदान करता है।
ME AI संदेश, एनालिटिक्स बीटिंग के मॉनिटरिंग के अनुसार, बड़े मॉडल ट्रेन करने के लिए घरेलू एसेंड (Ascend) चिप्स का उपयोग करना, MoE आर्किटेक्चर के विकास के दौरान स्वदेशी और नियंत्रित AI कैलकुलेशन क्षमता बनाने की प्रमुख दिशा बन गया है। हालांकि, प्रमुख बड़े मॉडल फ्रेमवर्क अधिकांशतः न्विडिया CUDA इकोसिस्टम पर आधारित हैं, और एसेंड प्लेटफॉर्म पर सीधे पोर्ट करते समय हार्डवेयर क्यू स्केड्यूलिंग में असमानता, कैलकुलेशन उपयोग दर में कमी जैसी चुनौतियों का सामना करना पड़ता है। चीनी विज्ञान एवं प्रौद्योगिकी विश्वविद्यालय, हुआवेi और पeking विश्वविद्यालय ने मिलकर HyperParallel-MoE नामक कंपाइलर स्केड्यूलिंग फ्रेमवर्क लॉन्च किया है, जो एसेंड A3 की अद्वितीय हार्डवेयर क्यू के लिए टाइल-स्तरीय (tile-level) नियंत्रण प्रदान करता है, ताकि समानांतर स्केड्यूलिंग में हेटरोजीनस कैलकुलेशन की कुशलता की सीमा को पार किया जा सके। एसेंड A3 में दो प्रकार के कोर हैं: AIC मैट्रिक्स गुणन के लिए जिम्मेदार है, जबकि AIV वेक्टर कैलकुलेशन और संचार को संभालता है। हालांकि, पारंपरिक सीरियल स्केड्यूलिंग में, इन दोनों कोर्स केवल प्रत्यावर्ती रूप से काम करते हैं और प्रत्येक के समय-समय पर सुस्त होने की स्थिति होती है। प्रयोगशाला परीक्षणों में, 256 नोड क्लस्टर पर 671B DeepSeek-शैली मॉडल चलाने पर, AIC की उपयोग दर केवल 67% थी, और 39% एक्सपर्ट रूटिंग संचार देरी महत्वपूर्ण कैलकुलेशन पथ पर प्रकट हुई। HyperParallel-MoE के मुख्य सुधार तीन हैं। पहला, AIV-चालित एक-ओर-लिखने (single-sided write) प्रिमिटिव का डिज़ाइन, जो डेटा टाइल पहुंचते ही कैलकुलेशन को ट्रिगर करता है, पूरे बैच के पहुंचने का इंतज़ार किए बिना। दूसरा, निर्भरता-जागरूक टाइल-आधारित कार्य संज्ञान (dependency-aware tile task generation) का प्रवेश, जो संचार और कैलकुलेशन ऑपरेटर्स को समान स्तर पर सामान्यीकृत करता है। तीसरा, स्थिर स्केड्यूलर के माध्यम से पहले से ही कार्य-अनुक्रम (task sequence) का उत्पादन, जो एकल kernel में AIC/AIV कोर्स को समानांतर में संचालित करता है, और L2 कैश में मध्यवर्ती परिणामों को साझा करके HBM मेमोरी में पुनः-लिखने (write-back) और पढ़ने (read) में होने वाली देरी को कम करता है। परीक्षणों में, 64-नोड संतुलित रूटिंग में, महत्वपूर्ण महत्वपूर्ण मॉड्यूल (MoE-FFN) में 36% से अधिक कमी हुई, जो 58% (1.49 से 1.58x) से अधिक प्रोसेसिंग स्पीड में सुधार हुआ। पूरे सिस्टम में, E2E (एंड-टू-एंड) प्रशिक्षण समय में 8% से 9% सुधार हुआ। इससे पता चलता है कि, AIC/AIV कोर्स को प्रभावी ढंग से स्केड्यूल करने में कंपाइलर और Runtimes महत्वपूर्ण हैं — हार्डवेयर स्पेसिफिकेशन से पहले। (स्रोत: BlockBeats)
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।