चीनी एआई का मील का पत्थर: 1.6 ट्रिलियन पैरामीटर वाला डीपसीक मॉडल घरेलू एसेंड 910सी पर पूरी तरह से प्रशिक्षित

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
शेन्ज़ेन हेताओ कॉलेज, एचआईटी (शेन्ज़ेन), शेन्ज़ेन इंस्टीट्यूट ऑफ बिग डेटा और हुआवेई की एक संयुक्त टीम ने घरेलू Ascend 910C AI प्लेटफॉर्म पर 1.6 ट्रिलियन पैरामीटर वाले DeepSeek-V4-Pro मॉडल का पूर्ण पोस्ट-ट्रेनिंग पूरा कर लिया है। यह ऑन-चेन समाचार पहली बार है जब किसी तीसरे पक्ष के समूह ने 1,000 से अधिक Ascend 910C चिप्स का उपयोग करके 1.6T पैरामीटर मॉडल का पूर्ण प्रशिक्षण पूरा किया है। टीम ने मॉडल के कंप्यूट उपयोग को 30% से अधिक और महत्वपूर्ण ऑपरेटर की दक्षता को 14% बढ़ाया, और 1,500+ प्रशिक्षण चरणों के दौरान कोई सिस्टम विफलता नहीं हुई। AI + क्रिप्टो समाचार घरेलू AI क्षमताओं और बुनियादी ढांचे में वृद्धि को दर्शाता है।
ME AI संदेश, डोंगचा द्वारा मॉनिटर किए जाने पर, शेन्ज़ेन हेसुआई कॉलेज, हार्बिन इंजीनियरिंग विश्वविद्यालय (शेन्ज़ेन), शेन्ज़ेन बड़े डेटा रिसर्च इंस्टीट्यूट और हुआवेई संबंधित टीमों द्वारा गठित, और शेन्ज़ेन ज़हुईचेंग AI कैलकुलेशन प्लेटफॉर्म के सहयोगी अनुसंधान टीम द्वारा, घरेलू AI कैलकुलेशन प्लेटफॉर्म पर 1.6 ट्रिलियन पैरामीटर के बड़े मॉडल DeepSeek-V4-Pro का पूर्ण पैरामीटर पोस्ट-ट्रेनिंग (Post-training) सफलतापूर्वक चलाया गया है। यह वैश्विक स्तर पर पहली बार कोई तीसरा पक्ष संगठन है जिसने घरेलू कैलकुलेशन प्लेटफॉर्म पर 1.6 ट्रिलियन पैरामीटर स्केल के मॉडल का पूर्ण पैरामीटर पोस्ट-ट्रेनिंग पूरा किया है। शून्य से प्री-ट्रेनिंग (Pre-training) के विपरीत, पोस्ट-ट्रेनिंग चरण (जिसमें मुख्य रूप से सुपरवाइज्ड फाइन-ट्यूनिंग SFT और रीइनफोर्समेंट लर्निंग RL शामिल है) उच्च गुणवत्ता वाले निर्देशों और मानव प्राथमिकताओं के माध्यम से मॉडल को निर्देशों का पालन करने और विशिष्ट कार्यों को संपादित करने के लिए प्रशिक्षित करता है। हालाँकि, 1.6 ट्रिलियन पैरामीटर MoE आर्किटेक्चर मॉडल के लिए, पूर्ण पैरामीटर पोस्ट-ट्रेनिंग नीचले हार्डवेयर की VRAM क्षमता, मल्टी-कार्ड के बीच संचार बैंडविड्थ (जैसे MoE रूटिंग द्वारा सक्रिय होने वाला सभी-से-सभी संचार) और बड़े समूह की स्थिरता के लिए बहुत कठोर आवश्यकताएँ रखता है। संयुक्त अनुसंधान टीम ने हुआवेई Ascend 910C कैलकुलेशन क्लस्टर, जो 1000 से अधिक चिप्स के स्केल पर है, का उपयोग करते हुए, वितरित होस्टिंग और लोड-बैलेंसिंग रणनीति में सुधार के माध्यम से संचार की संकीर्णता को सफलतापूर्वक दूर किया। 1500 से अधिक स्टेप्स की प्रशिक्षण प्रक्रिया में, सिस्टम में कभी भी विघटन नहीं हुआ, मॉडल कैलकुलेशन उपयोग (MFU) 30% से अधिक हुआ, महत्वपूर्ण कैलकुलेशन ऑपरेटर की कुशलता 14% बढ़ी, और सभी संकेतक औद्योगिक स्तर के संचालन मानकों को प्राप्त करते हैं। उद्योग के विश्लेषकों का मानना है कि हुआवेई Ascend 910C क्लस्टर की सफलता, 10000+ पैरामीटर मॉडल प्रशिक्षण में, प्रमाणित करती है कि घरेलू AI चिप,अति-विशाल मॉडल के गहन प्रशिक्षण के कार्यों को संभालने में प्रावधानिक संभवता है। पहले, महान मॉडलों के विकास में प्रमुख प्री-ट्रेनिंग मुख्यतः NVIDIA GPU क्लस्टर पर निर्भर करती थी, और घरेलू कैलकुलेशन मुख्यतः अनुमान (Inference) या सामान्य-पैरामीटर फाइन-ट्यूनिंग के कार्यों में ही सीमित होता था। इस संयुक्त प्रयास की सफलता,घरेलू कैलकुलेशन पारिस्थिति के 'केवलअनुमान' से 'अति-विशाल पैरामीटर मॉडल के पूर्ण प्रशिक्षण' में प्रावधानिक-बंदचक्र में संक्रमण की समय-समय पर समय-समय पर समय-समय पर (来源:MLion)
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।