DeepSeek V4 स्थानीय AI चिप्स पर स्थिर प्रदर्शन दर्शाता है

लेख | वर्ल्ड मॉडल वर्कशॉप

DeepSeek V4, ने फिर से पूरे चीन को हिला दिया।

पैरामीटर साइज, कॉन्टेक्स्ट लंबाई, बेंचमार्क स्कोर... ये तकनीकी सूचकांक विभिन्न रिपोर्ट्स में बार-बार तुलना किए जा चुके हैं।

लेकिन अगर केवल सतही डेटा पर ही रुक जाएं, तो इस लॉन्च का सबसे रणनीतिक महत्व खो दिया जाता है।

पिछले तीन वर्षों में, चीनी बड़े मॉडल हमेशा एक अजीब सच्चाई में फंसे रहे: प्रशिक्षण निविडा पर निर्भर है, निष्कर्षण भी निविडा पर निर्भर है, और देशी चिप्स केवल बैकअप विकल्प माने जाते हैं।

जब न्वीडिया आपूर्ति बंद कर दे, तो पूरा चीनी मॉडल समुदाय चिंतित हो जाएगा।

लेकिन आज, DeepSeek V4 ने अपनी क्षमता से साबित कर दिया:

एक अग्रणी ट्रिलियन पैरामीटर वाला बड़ा मॉडल, जो देशी कैलकुलेशन पर स्थिर और कुशलतापूर्वक चल सकता है।

इस बात का महत्व, मॉडल टेक्निकल इंडिकेटर्स से अधिक है।

अपने देश के उत्पादों का ब्रेकआउट

इस देशीकरण अनुकूलन की कठिनाई को समझने के लिए, आपको निविडा के चिप साम्राज्य को समझना होगा।

नविडिया के पास केवल चिप्स ही नहीं हैं, बल्कि एक अत्यधिक बंद पूर्ण पारिस्थितिकी तंत्र है:

हार्डवेयर पर, GPU चिप परिवार के साथ-साथ NVLink और NVSwitch के साथ चिप्स के बीच उच्च गति का नेटवर्क स्थापित किया गया है;

सॉफ्टवेयर पर, CUDA निवेडिया द्वारा लगभग दो दशकों के लंबे समय तक विकसित किया गया एक AI ऑपरेटिंग सिस्टम है।

यह एक अत्यधिक अनुकूलित कारखाने की तरह है, जहाँ सबसे निचले स्तर के ऑपरेटर (मॉडल कैलकुलेशन की बुनियादी इकाई) से लेकर समानांतर कैलकुलेशन, मेमोरी प्रबंधन और वितरित संचार तक, पूरी लिंक निविडा GPU के लिए विशेष रूप से डिज़ाइन की गई है।

In other words, NVIDIA doesn't just sell engines—it also fixes the roads, gas stations, repair shops, and navigation systems.

वैश्विक शीर्ष मॉडल लगभग सभी इस पारिस्थितिकी पर विकसित हुए हैं।

देशी कैलकुलेशन पावर पर स्विच करने पर, आपका सामना बिल्कुल अलग स्थिति से होता है।

हार्डवेयर आर्किटेक्चर अलग है, कनेक्टिविटी अलग है, सॉफ्टवेयर स्टैक की परिपक्वता अलग है, और टूल इकोसिस्टम अभी भी तेजी से पीछे छूट रहा है।

डीपसीक देशी चिप्स के अनुकूलन करना चाहता है, जो केवल एक इंजन बदलने की बात नहीं है, बल्कि एक ऐसी रेस कार के लिए है जो पहले से ही हाईवे पर तेजी से चल रही है, और उसे अभी भी निर्माणाधीन पहाड़ी सड़क पर स्विच करना है।

थोड़ी भी लापरवाही से, झटका, रुकावट, या पूरी गाड़ी का आगे न बढ़ना हो सकता है।

इस बार, DeepSeek V4 ने केवल CUDA पथ पर ही अनुकूलन जारी रखने के बजाय, घरेलू कैलकुलेशन स्टैक के साथ सॉफ्टवेयर समायोजन लिंक पर भी एक साथ प्रवेश किया।

सार्वजनिक जानकारी के अनुसार, V4 ने घरेलू निष्कर्षण चिप के आधार पर उल्लेखनीय प्रगति की है, जिसमें हुआवेई एशेंड 950 चिप के साथ गहरा अनुकूलन हुआ है, और केंवूजी ने मॉडल प्रकाशन के दिन ही स्थिर रूप से चलाया, जिससे Day 0 अनुकूलन वास्तविक रूप से संभव हुआ।

इसका अर्थ है कि अग्रणी मॉडल्स को घरेलू चिप सिस्टम में लागू करने की संभावना शुरू हो गई है।

DeepSeek V4 कैसे करता है?

पहला चरण, मॉडल आर्किटेक्चर स्तर पर होता है।

V4 ने घरेलू चिप को 1M कॉन्टेक्स्ट के लिए सीधे संघर्ष करने के बजाय, पहले मॉडल को अधिक कुशल बनाने का फैसला किया।

ऑफिशियल तकनीकी रिपोर्ट में सबसे महत्वपूर्ण डिजाइन, CSA + HCA मिश्रित ध्यान तंत्र और KV कैश संपीड़न जैसी लंबे संदर्भ अनुकूलन हैं।

सरल शब्दों में, पारंपरिक लंबे संदर्भ तर्क में, मॉडल हर उत्तर देने के लिए पूरी पुस्तकालय को एक साथ फैला देता है, जिससे VRAM, बैंडविड्थ और कैलकुलेशन क्षमता तेजी से भर जाती हैं।

V4 का तरीका है कि पहले पुस्तकालय के सामग्री को पुनः सूचीबद्ध किया जाए, संपीड़ित किया जाए और छानबीन की जाए, ताकि केवल सबसे महत्वपूर्ण जानकारी को कैलकुलेशन लाइन में भेजा जा सके।

इस तरह, 1M कॉन्टेक्स्ट अब पूरी तरह से हार्डवेयर की बलशक्ति पर निर्भर नहीं है, बल्कि पहले एल्गोरिदम के माध्यम से कैलकुलेशन और वीडियो मेमोरी के खाते को छोटा किया जाता है।

This is very crucial for domestic chips.

यदि मॉडल अभी भी वीडियो मेमोरी बैंडविड्थ और परिपक्व CUDA लाइब्रेरी पर अत्यधिक निर्भर है, तो घरेलू चिप्स भले ही चल सकें, लेकिन उन्हें सस्ता और स्थिर रूप से चलाना मुश्किल होगा।

V4 पहले निष्कर्ष बोझ को कम करता है, जो मूल रूप से देशी कैलकुलेशन क्षमता पर दबाव कम करने के लिए है।

दूसरा चरण, MoE आर्किटेक्चर और एक्टिवेशन पैरामीटर लेयर में होता है।

V4-Pro कुल पैरामीटर 1.6 ट्रिलियन हैं, लेकिन प्रत्येक निष्क्रियकरण में केवल लगभग 490 अरब पैरामीटर सक्रिय होते हैं; V4-Flash कुल पैरामीटर 2840 अरब हैं, और प्रत्येक निष्क्रियकरण में लगभग 130 अरब पैरामीटर सक्रिय होते हैं।

इसका अर्थ है कि यह प्रत्येक कॉल पर सभी पैरामीटर्स को नहीं निकालकर गणना करता, बल्कि एक बड़ी विशेषज्ञ टीम की तरह है, जहाँ कार्य आने पर केवल संबंधित विशेषज्ञों को बुलाया जाता है।

For domestic chips, this is equally important.

यह प्रत्येक निष्कर्षण के दौरान सहन किए जाने वाली गणना के दबाव को कम करता है और लंबे संदर्भ और एजेंट परिदृश्यों को निष्कर्षण कार्ड द्वारा संभालने में आसान बनाता है।

तीसरा कदम, ऑपरेटर और कर्नेल स्तर के अनुकूलन का है।

CUDA इकोसिस्टम का सबसे मजबूत पहलू यह है कि बहुत सारी निचली स्तर की गणनाएँ निविडा द्वारा परिपक्व कर दी गई हैं, और कई उच्च प्रदर्शन गणनाएँ सीधे उपयोग की जा सकती हैं।

V4 का अर्थ है कि इसमें कुछ महत्वपूर्ण गणनाएँ निवेडिया के ब्लैक बॉक्स से बाहर निकाली गई हैं और इन्हें अधिक स्थानांतरणीय और अनुकूलनीय कस्टम गणना पथों में बदल दिया गया है।

सरल शब्दों में, V4 एक इंजन के सबसे महत्वपूर्ण हिस्सों को अलग कर देता है, ताकि हुआवेई शेंटेंग, क्राउनजियान जैसे निर्माता अपनी चिप संरचना के अनुसार पुनः कैलिब्रेट कर सकें।

चौथा चरण, निष्कर्ष फ्रेमवर्क और सर्विस लेयर है।

अगर घरेलू चिप अनुकूलन केवल "डेमो चलाने" तक सीमित रहता है, तो इसका उद्योग के लिए कोई बड़ा महत्व नहीं है। वास्तविक रूप से ध्यान देने योग्य बात यह है कि क्या इसे उपयोग करने योग्य और शुल्क लेने योग्य सेवा प्रणाली में शामिल किया जा सकता है।

आंतरिक परीक्षण के अनुसार, Ascend 950PR पर V4 की निष्पादन गति पिछले संस्करणों की तुलना में महत्वपूर्ण रूप से बढ़ गई है, और ऊर्जा खपत में भी उल्लेखनीय कमी आई है। विशिष्ट निम्न-सटीकता परिदृश्यों में, एकल कार्ड प्रदर्शन निवेडिया के विशेष H20 से दोगुना से अधिक है।

DeepSeek ने उल्लेख किया है कि वर्तमान में V4-Pro उच्च-क्षमता गणना पर निर्भर है और सेवा की संसाधन क्षमता सीमित है; अनुमान है कि इस साल के दूसरे छमाही में Ascend 950 सुपर नोड्स के बड़े पैमाने पर लॉन्च होने के बाद, कीमत में भारी कमी आएगी।

यह दर्शाता है कि शेंगटेंग जैसे घरेलू हार्डवेयर के बड़े पैमाने पर उत्पादन के साथ, V4 की भविष्य में थ्रूपुट और कीमत-प्रदर्शन अधिक अनुकूलित होगा।

हालांकि, ध्यान देने योग्य बात यह है कि V4 ने नाइविडिया के GPU और CUDA का पूर्णतः स्थान नहीं ले लिया है; मॉडल प्रशिक्षण अभी भी नाइविडिया पर निर्भर हो सकता है, लेकिन निष्कर्षण को धीरे-धीरे देशीकृत किया जा सकता है।

यह वास्तविक व्यावसायिक पथ है।

ट्रेनिंग चरणबद्ध निवेश है, एक बार ट्रेन करें, एक बार एडजस्ट करें, एक बार इटरेट करें। इन्फरेंस निरंतर लागत है, प्रतिदिन करोड़ों, अरबों उपयोगकर्ता कॉल्स, प्रत्येक कॉल के लिए कैलकुलेशन पावर की आवश्यकता होती है।

मॉडल कंपनियों का सबसे बड़ा खर्च लंबे समय में निष्कर्षण पर अधिक केंद्रित होता जा रहा है। जो कोई निष्कर्षण की मांग को सस्ते और अधिक स्थिर तरीके से पूरा कर सकता है, वही उद्योग के अनुप्रयोगों में वास्तविक लाभ प्राप्त करेगा।

DeepSeek V4 ने पहली बार चीन के अग्रणी मॉडल के निष्कर्ष तैनाती के लिए एक ऐसा मार्ग उपलब्ध कराया जो नेविडिया CUDA पर डिफ़ॉल्ट आधारित नहीं है।

This step is already substantial enough.

V4 का उद्योग के अनुप्रयोगों पर प्रभाव

अगर घरेलू चिप्स के अनुकूलन का जवाब यह है कि क्या यह चल सकता है, तो कीमत एक और अधिक वास्तविक प्रश्न का जवाब देती है:

क्या व्यवसाय इसे खरीद सकता है?

पिछले समय DeepSeek की सबसे बड़ी ताकत यह थी कि यह अग्रणी मॉडल की क्षमता को अत्यंत कम कीमत पर दबा देता था।

V3, R1 के समय ऐसा था, V4 भी ऐसा ही है।

इस बार अंतर यह है कि यह सामान्य कॉन्टेक्स्ट विंडो में कीमत की लड़ाई नहीं लड़ रहा है, बल्कि 1M कॉन्टेक्स्ट + एजेंट क्षमता के संदर्भ में कीमत दबाना जारी रख रहा है।

DeepSeek के आधिकारिक मूल्य के अनुसार:

V4-Flash के लिए कैश हिट इनपुट 0.2 युआन/मिलियन टोकन, कैश मिस इनपुट 1 युआन/मिलियन टोकन, आउटपुट 2 युआन/मिलियन टोकन;

V4-Pro के लिए कैश हिट इनपुट 1 युआन / मिलियन टोकन, कैश मिस इनपुट 12 युआन / मिलियन टोकन, और आउटपुट 24 युआन / मिलियन टोकन।

इसे समान देशी मॉडल में डालकर देखें:

अली क्वेन 3.6-प्लस की तुलना में 256K-1M स्तर पर, V4-Pro का आउटपुट मूल्य लगभग उसका आधा है, और V4-Flash और भी कम है।

V4-Flash और V4-Pro, Xiaomi MiMo Pro सीरीज़ के 256K-1M स्तर की तुलना में स्पष्ट रूप से सस्ते हैं।

Kimi K2.6 का संदर्भ 256K है, जबकि V4-Pro का संदर्भ अधिक लंबा और कम कीमत पर है; V4-Flash तो उच्च आवृत्ति वाले उपयोग की लागत को एक अलग स्तर पर ले जाता है।

This has tremendous significance for enterprise applications.

क्योंकि 1M कॉन्टेक्स्ट का अर्थ है कि मॉडल एक बार में पूरे कोड रिपॉजिटरी, मोटे कॉन्ट्रैक्ट पैकेज, सैकड़ों पृष्ठों की आईपीओ प्रोस्पेक्टस, लंबी मीटिंग मिनट्स, या एजेंट द्वारा लगातार कार्यों के निष्पादन के दौरान जमा हुए इतिहास स्टेटस को पढ़ सकता है।

पिछले कई व्यवसायों ने यहां फंसना था: मॉडल क्षमता पर्याप्त है, लेकिन संदर्भ अपर्याप्त है; संदर्भ पर्याप्त है, लेकिन कीमत बहुत अधिक है; कीमत स्वीकार्य है, लेकिन मॉडल क्षमता पर्याप्त रूप से स्थिर नहीं है।

उदाहरण के लिए, एक उद्यम एक निवेश अनुसंधान एजेंट बनाता है, जिसे मॉडल को कंपनी की वार्षिक रिपोर्ट, वित्तीय विवरण की फोन कॉल, उद्योग रिपोर्ट, प्रतिद्वंद्वी समाचार और आंतरिक अधिकारियों के सम्मेलन को एक साथ पढ़ना होता है।

जब कंटेक्स्ट केवल 128K या 256K होता है, तो सिस्टम को अक्सर लगातार स्लाइस करना, रिट्रीव करना और सारांश बनाना पड़ता है, जिससे जानकारी कई बार संपीड़न में खो जाती है।

1M कॉन्टेक्स्ट मॉडल को अधिक मूल सामग्री को बनाए रखने में मदद करता है, जिससे लापता या टुकड़े होने की संभावना कम होती है।

जैसे कोड एजेंट।

यह कुछ पंक्तियों को एक बार में लिखने की बजाय, रिपॉजिटरी पढ़ना, निर्भरताओं को समझना, फाइलें संशोधित करना, परीक्षण चलाना और त्रुटियों के आधार पर ठीक करना है। यह प्रक्रिया बार-बार टोकन्स का उपयोग करती है।

अगर प्रत्येक कदम महंगा है, तो एजेंट केवल प्रदर्शन कर सकता है, लेकिन अगर टोकन पर्याप्त सस्ते हैं, तो यह वास्तविक अनुसंधान और विकास प्रक्रिया में प्रवेश कर सकता है।

यह V4 का उद्योग मूल्य भी है।

यह सबसे शक्तिशाली मॉडल नहीं हो सकता, लेकिन व्यवसायों के लिए सबसे अधिक उपयोग किया जाने वाला मॉडल बन सकता है।

DeepSeek ने फिर से AI को कुछ बड़ी कंपनियों के एकल खिलौने से बदलकर कई उद्योगों में स्केल करने योग्य उत्पादकता उपकरण बना दिया है।

V4 का वास्तविक मूल्य

जब 1M कॉन्टेक्स्ट बहुत कम कीमत पर उद्योग की पंक्ति में जाता है, तो DeepSeek V4 का वास्तविक महत्व प्रकट होता है।

यह सब, घरेलू कैलकुलेशन क्षमता अभी अपरिपक्व होने के आधार पर बनाया गया है।

घरेलू चिप इकोसिस्टम के सिस्टमैटिक अंतर के सामने, DeepSeek टीम ने इकोसिस्टम के परिपक्व होने का इंतजार नहीं किया।

उन्होंने प्रकाशन अवधि को बार-बार टाल दिया, महीनों तक हुआवे जैसे साझेदारों के साथ गहरी संयुक्त टेस्टिंग में लगे, इस इंजीनियरिंग की कठिनाई बाहरी दुनिया की कल्पना से कहीं अधिक है।

इसलिए, V4 ने देशी कैलकुलेशन क्षमता पर शीर्ष स्तरीय बंद स्रोत मॉडल के समान निष्पादन और एजेंट क्षमता प्राप्त करना विशेष रूप से कठिन बना दिया।

V4 ने स्वयं साबित किया कि हालाँकि हार्डवेयर इकोसिस्टम में अस्थायी अंतर है, लेकिन चीनी टीम अभी भी अत्यधिक इंजीनियरिंग निवेश और सॉफ्टवेयर-हार्डवेयर सह-अभिनवता के माध्यम से प्रतिस्पर्धी प्रदर्शन प्राप्त कर सकती है।

Of course, there is still a gap to full maturity.

Ascend प्लेटफॉर्म के टूलचेन की पूर्णता, अत्यधिक विशाल क्लस्टर की स्थिरता, और अधिक ऊर्ध्वाधर परिदृश्यों के गहन अनुकूलन के लिए उद्योग के सभी पक्षों को अभी भी संयुक्त रूप से प्रयास करने की आवश्यकता है।

लेकिन V4 की सफलता ने भविष्य के मॉडल के लिए एक उपयोगी मार्ग प्रशस्त कर दिया है।

यह पूरी AI सप्लाई चेन के लिए स्वायत्तता और नियंत्रण के लिए एक मजबूत बूस्ट प्रदान करता है।

आज के अनिश्चित बाहरी परिदृश्य में, सीमाओं के भीतर भी अग्रसर होने की यह लचीलापन, केवल पैरामीटर सूचकों से अधिक सम्मान के योग्य है।

प्रशंसा से आकर्षित न हों, निंदा से डरें नहीं, मार्ग के अनुसार चलें, और स्वयं को सीधा और सही रखें।

यह डीपसीक की आधिकारिक वेबसाइट से आया हुआ वाक्य है, जो इसकी सर्वोत्तम टिप्पणी है।