डीपसीक की 10 ट्रिलियन डॉलर की विशाल रणनीति
मूल लेखक: @bookwormengr
Peggy, BlockBeats
संपादकीय टिप्पणी: पिछले वर्ष, डीपसीक के चर्चा का अधिकांश भाग मॉडल प्रदर्शन, ओपन सोर्स रणनीति और मूल्य प्रतिस्पर्धा पर केंद्रित रहा है। लेकिन यदि आप केवल 'सदस्यता बेच रहे हैं या नहीं', 'क्या यह मल्टीमॉडल है', 'क्या यह कोडिंग एजेंट बना सकता है' के आधार पर डीपसीक को समझते हैं, तो आप उस वास्तविक चीज को कम मूल्यांकन कर सकते हैं जिसे यह बदलना चाहता है।
यह लेख एक अधिक आक्रामक निष्कर्ष प्रस्तुत करता है: डीपसीक का लक्ष्य शायद अल्पकालिक रूप से अनुप्रयोग स्तर पर आय कमाना नहीं, बल्कि एक श्रृंखला के मूलभूत आधारभूत नवाचारों के माध्यम से AI प्रशिक्षण और अनुमान की लागत संरचना को पुनर्गठित करना है, और परोक्ष रूप से एक नया हार्डवेयर पारिस्थितिकी बनाना। MoE, MLA से लेकर DSA, CSA, mHC, Engram, और फिर Dual Path और TileLang तक, डीपसीक की प्रौद्योगिकी रणनीति हमेशा एक केंद्रीय प्रश्न पर केंद्रित रही है: HBM, उन्नत प्रक्रिया, पैकेजिंग और CUDA पारिस्थितिकी की सीमाओं के बीच, कम उच्च-स्तरीय कैलकुलेशन के साथ अधिक शक्तिशाली मॉडल कैसे चलाएं।
सबसे महत्वपूर्ण बात यह नहीं है कि "DeepSeek API या सदस्यता से कुछ अरब डॉलर कमा सकता है", बल्कि यह है कि क्या यह मॉडल क्षमता, मेमोरी व्यवस्था और देशी हार्डवेयर इकोसिस्टम को एक साथ बांध रहा है। KV Cache संपीड़न HBM पर निर्भरता को कम करता है, NAND और SSD लंबे समय तक कैश के लिए उपयुक्त हैं, LPDDR वजन स्ट्रीमिंग और Engram संग्रहण के लिए उपयोग किया जा सकता है, और TileLang CUDA की रक्षा को कमजोर करने की कोशिश कर रहा है। यदि ये नवाचार लगातार फैलते रहे, तो इनका लाभ केवल DeepSeek ही नहीं, बल्कि स्टोरेज, ASIC, GPU, नेटवर्क चिप और पूरी AI बुनियादी ढांचे की श्रृंखला को मिलेगा।
हालाँकि, लेख में उल्लिखित “10 ट्रिलियन डॉलर का उद्योग पारिस्थिति” और “1 ट्रिलियन डॉलर का मूल्यांकन” का निष्कर्ष अभी भी प्रबल अनुमान पर आधारित है। लेकिन यह DeepSeek को समझने का एक महत्वपूर्ण मार्ग प्रदान करता है: ओपन सोर्स होना आवश्यक रूप से व्यावसायिकीकरण को छोड़ने का मतलब नहीं है, और कम कीमत होना सिर्फ बाजार को सब्सिडी देने का मतलब नहीं है। DeepSeek के लिए, वास्तविक व्यवसाय संभवतः एप्लिकेशन स्तर पर नहीं, बल्कि अधिक हार्डवेयर को उपलब्ध बनाने और कम लागत के AI सप्लाई को संभव बनाने में है। दूसरे शब्दों में, यह संभवतः मॉडल की बजाय अगली पीढ़ी के AI बुनियादी ढांचे की संभावना बेच रहा है।
The following is the original text:

क्या आपने कभी सोचा है कि DeepSeek वास्तव में कैसे कमाएगा, और संभवतः बहुत अधिक कमाएगा?
इसने GLM, MoonShot और MiniMax की तरह प्रतिस्पर्धी प्रोग्रामिंग सब्सक्रिप्शन योजनाएँ लॉन्च नहीं की हैं; न ही इसके पास मल्टीमॉडल, ऑडियो और वीडियो मॉडल हैं। अब तक, इसके पास अभी तक अपना हैरन्स भी नहीं है—यानी मॉडल कॉल, टूल एक्सेस और टास्क निष्पादन के लिए बाहरी रनटाइम फ्रेमवर्क—हालाँकि, उन्होंने हाल ही में इस प्रणाली को बनाने के लिए संबंधित पदों के लिए भर्ती शुरू कर दी है।
इसी बीच, डीपसीक लगता है कि ओपन सोर्स के साथ लंबे समय तक दृढ़ता से खड़ा है और अपने "रहस्यों" को साझा करने के लिए भी खुश है। क्या यह पागलपन नहीं है? क्या यह बेकार पैसा बर्बाद करना नहीं है? क्या उन निवेशकों को, जो इसमें 100 अरब डॉलर निवेश करने की योजना बना रहे हैं, अपना पैसा सीवर में फेंकना पड़ रहा है?
मेरे व्यक्तिगत विचार में, उत्तर ठीक विपरीत है।
अगले कदम में, मैं डीपसीक द्वारा अब तक किए गए कार्यों के आधार पर कुछ अवलोकन प्रस्तुत करूँगा और वह रणनीति विश्लेषण करूँगा जिसका पालन यह प्रतीत होती है। डीपसीक के सीईओ लियांग वेनफेंग का लक्ष्य, संभवतः केवल वर्तमान मॉडल प्रतिस्पर्धा तक सीमित नहीं है। उनका लक्ष्य शायद एक बड़ा पुरस्कार है: डीपसीक के पास 1 ट्रिलियन डॉलर के मूल्यांकन को प्राप्त करने का अवसर है, साथ ही 10 ट्रिलियन डॉलर के आकार की एक नई उद्योग को बनाने में मदद करने का अवसर है।

TechInAsia की रिपोर्ट DeepSeek के नवीनतम फंडिंग राउंड के बारे में
डीपसीक की "हीरोज जर्नी" पर वापसी
डीपसीक ने हमेशा विपरीत पवनों के खिलाफ यात्रा की है। इसने लगातार थोड़े अधिक शक्तिशाली मॉडल लॉन्च करने और उन्हें तुरंत मुनाफा कमाने वाले एप्लिकेशन, जैसे प्रोग्रामिंग सब्सक्रिप्शन स्कीम्स, में बदलने के बजाय इंतजार किया। 27 जनवरी, 2025 को, मैंने एक वायरल ट्वीट पोस्ट की थी, जिसमें मैंने अपनी नजर में डीपसीक की "हीरोज़ जर्नी" के बारे में बताया था। आज, यह कहानी और भी दिलचस्प हो गई है।
जब दूसरे घने मॉडल बनाने की कोशिश कर रहे थे, तब DeepSeek ने अधिक कठिन ट्रेन करने वाले एक्सपर्ट मिक्सचर मॉडल (Mixture of Experts, MoE) का चयन किया।
उन्होंने "प्रथम सिद्धांत" की विधि का उपयोग करके एक नया GRPO एल्गोरिथम विकसित किया, जिसका उपयोग तब के प्रचलित लेकिन अधिक लागत वाले PPO रीइनफोर्समेंट लर्निंग एल्गोरिथम के स्थान पर किया गया।
उन्होंने पाया कि सत्यापित पुरस्कार से शिक्षण रिइनफोर्समेंट लर्निंग (Reinforcement Learning from Verified Rewards, RLVR) मॉडल की तर्क क्षमता में सुधार की कुंजी रणनीति है।
उन्होंने एक सरल अनुमानित डिकोडिंग रणनीति भी प्रस्तुत की, जिसे «मल्टी टोकन प्रेडिक्शन» (Multi Token Prediction) कहा जाता है, जिससे ट्रेनिंग सिग्नल अधिक सघन हो गए।
उन्होंने सीमित GPU संसाधनों के उपयोग की दक्षता बढ़ाने के लिए «जीरो बबल» (ZERO bubble) पाइपलाइन को पूरा किया।
उन्होंने एक एक्सपर्ट लोड बैलेंसर लॉन्च किया है, जिससे सभी के लिए MoE मॉडल डिप्लॉय करना आसान हो गया है। विशेष रूप से, 'वाइड एक्सपर्ट पैरेलल' (Wide Expert Parallel) रणनीति के माध्यम से, मॉडल को बड़े batch के साथ सेवा दी जा सकती है, जिससे इन्फरेंस लागत में काफी कमी आती है।
उन्होंने KV Cache की आवश्यकता को कम करने और संदर्भ लंबाई के बढ़ने के साथ बढ़ने वाली गणना की आवश्यकता को संभवतः स्थिर रखने के लिए MLA, DSA, CSA, HCA आदि तंत्रों का आविष्कार किया।
उन्होंने एनग्राम का आविष्कार किया, जिसमें कैलकुलेशन की दक्षता के लिए मेमोरी का विनिमय किया जाता है।
उन्होंने mHC भी विकसित किया, जिससे मॉडल के स्केलिंग के दौरान स्थिर प्रशिक्षण संभव हो पाता है। इसी तरह के अन्य उदाहरण भी हैं।
सबसे सामान्य कथा संरचना, "हीरोज जर्नी" में, हीरो कभी अपनी यात्रा के अंतिम लक्ष्य के बारे में शुरुआत में निर्णय नहीं लेता। वह अपने रास्ते में सीखता है, धीरे-धीरे अपना वास्तविक महान मिशन पहचानता है, और अनेक बाधाओं के बावजूद उसे पूरा करता है। उसे कई संदेहवादी मिलते हैं, लेकिन वह उन्हें नज़रअंदाज़ करने का चयन करता है। उसे कई दुष्ट कारकों से भी सामना करना पड़ता है। उसमें स्पष्ट कमजोरियाँ या कमियाँ होती हैं, लेकिन अंततः वह इन समस्याओं पर काबू पा लेता है और अपना मिशन पूरा करता है। वह असंभव प्रतीत होने वाली चुनौतियों का सामना करता है, लेकिन सहयोगी बनाने का तरीका ढूंढ़ता है और सीखता है कि सीमित और मूल्यवान संसाधनों का कैसे समझदारी से उपयोग किया जाए। यही कारण है कि दर्शक हीरो के पक्ष में प्रशंसा करते हैं। यही DeepSeek को अनुयायी, वैश्विक सम्मान, और विरोधियों का सम्मान प्राप्त हुआ है।
जैसा कि मैं आगे विस्तार से स्पष्ट करूँगा, डीपसीक ने इस राह पर लंबे समय तक चला है और धीरे-धीरे अपनी अंतिम नियति को पहचाना है: इसका लक्ष्य प्रोग्रामिंग सब्सक्रिप्शन योजनाओं को बेचना नहीं, बल्कि 10 ट्रिलियन डॉलर के चीनी AI हार्डवेयर पारिस्थितिकी तंत्र को बढ़ावा देना और अपने आप को 1 ट्रिलियन डॉलर के मूल्यांकन के साथ प्राप्त करना है। इस प्रक्रिया में, यह पश्चिमी हार्डवेयर पारिस्थितिकी तंत्र में कई नए प्रवेशकर्ताओं के लिए अवसर भी पैदा करेगा।

कुछ दिलचस्प KV Cache गणनाओं से शुरू करें
कृपया @SemiAnalysis_ के इस हाल ही के ट्वीट को देखें:

DeepSeek ने इस समस्या को किसी से भी बेहतर तरीके से हल कर लिया है!
चलिए कुछ दिलचस्प KV Cache गणना करते हैं। चिंता मत करें, अगर आपको गणित पसंद नहीं है तो भी। हम हाल ही में जारी KV Cache कैलकुलेटर का उपयोग करेंगे, ताकि हम देख सकें कि DeepSeek V4 Pro कितनी KV Cache बचत प्रदान करता है, और इसे नवीनतम GLM और Qwen मॉडल के साथ तुलना कर सकें।
मैं यहाँ 10 लाख संदर्भ लंबाई के साथ गणना कर रहा हूँ, मान लीजिए KV प्रिसिजन 8 बिट है और इंडेक्सर प्रिसिजन 16 बिट है। आप इस कैलकुलेटर को खुद भी आजमा सकते हैं: https://kvcache.ai/tools/kv-cache-calculator/

आप अपने कैलकुलेटर को खुद भी खोलकर आजमा सकते हैं!
100 लाख संदर्भ लंबाई के साथ:
·DeepSeek V4 को केवल 5.48GB HBM की आवश्यकता है;
·GLM-5 को 60GB HBM की आवश्यकता होती है;
·Qwen3-235B-A22B को अधिकतम 89GB HBM की आवश्यकता होती है।
ध्यान दें:
·DeepSeek एक 1.6 खरब पैरामीटर मॉडल है;
·GLM-5 लगभग 7000 अरब पैरामीटर का है और इसमें DeepSeek के MLA और DSA का उपयोग किया गया है, हालाँकि नवीनतम संपीड़ित ध्यान तंत्र का उपयोग अभी तक नहीं किया गया है;
·Qwen3-235B-A22B लगभग 2350 अरब पैरामीटर है, जिसमें GQA ध्यान तंत्र का उपयोग किया जाता है।
DeepSeek ने मेमोरी के दबाव को कम करने में मूलभूत योगदान दिया है। यदि इस तरह के नवीनीकरण का व्यापक रूप से उपयोग किया जाता है, तो लंबे समय तक चलने वाले Agent की संचालन लागत में काफी कमी आएगी और अगली लहर के नए अनुप्रयोगों को सक्षम किया जा सकेगा।

100 लाख टोकन कंटेक्स्ट और मॉडल साइज के लिए KV कैश का उपयोग तुलना
"फ्रेनेटिक" के पीछे की विधि
KV कैश का आकार इतना छोटा कैसे हो सकता है, जबकि मॉडल की गुणवत्ता को नुकसान नहीं पहुंचाया जाता है—यही कारण है कि DeepSeek लंबे समय तक कैश प्रदान कर सकता है बहुत कम कीमत पर—इसकी कीमत Sonnet 4.6 कैश हिट कीमत से 3% से भी कम है, और DeepSeek कैश को कई घंटों तक बनाए रख सकता है।
对于长周期任务而言,较小的 KV 缓存意味着可以更经济地将其卸载到 SSD 并在需要时重新加载,从而减少对 HBM 的依赖。从中国 AI 硬件产业的角度来看,HBM 不仅供应紧张,也是最难制造的内存类型之一。
इसके अलावा, डीपसीक ने SSD से KV Cache को तेजी से लोड करने की तकनीक विकसित की है, जिसका वर्णन उसके ड्वल पाथ पेपर में किया गया है।

DeepSeek V4 के लिए KV Cache का संपीड़न इतना बड़ा है कि इस चरण को अब शायद ही आवश्यकता होगी।
तो, KV कैश संपीड़न के सबसे सीधे लाभार्थी कौन हैं?
कौन बड़े पैमाने पर SSD की आपूर्ति कर रहा है? याद रखें, YMTC (चांगजियांग स्टोरेज) 3D NAND के क्षेत्र में एक विशालकाय बन रहा है। NAND, DeepSeek को KV की दोहरी गणना से बचने में मदद कर सकता है। विपरीत रूप से, DeepSeek NAND और SSD के लिए एक विशाल बाजार बना रहा है—जो न केवल चांगजियांग स्टोरेज को, बल्कि अन्य संबंधित निर्माताओं को भी लाभ पहुंचाएगा।

हालांकि, यह केवल NAND और SSD के बारे में ही नहीं है।
LPDDR मेमोरी में भी विशाल क्षमता है। इसे मॉडल वेट्स को स्टोर करने के लिए उपयोग किया जा सकता है और आवश्यकता पड़ने पर इन वेट्स को HBM में स्ट्रीम किया जा सकता है, जिससे HBM की मांग में कमी आती है। SGLang टीम ने इसके बारे में एक बहुत अच्छा ब्लॉग पोस्ट जारी किया था। नीचे का चित्र इस समाधान के कार्यप्रणाली को दर्शाता है।
हालांकि DeepSeek ने इस योजना के लिए कोई विशिष्ट डिज़ाइन नहीं किया है, लेकिन इसकी MoE आर्किटेक्चर, स्वयं में बहुत सारे एक्सपर्ट मॉडल का होना, और 4 बिट वजन की विशेषता इस योजना को लागू करने को आसान बनाती हैं।

यह चित्र दर्शाता है कि मेमोरी का उपयोग कैसे किया जा सकता है और मॉडल वेट्स कैसे LPDDR से HBM में स्ट्रीम होते हैं। SGLang के ब्लॉग को पढ़ने की जोरदार सिफारिश की जाती है।
यदि यह नवीनता अत्यंत संकुचित और नुकसानरहित KV Cache के साथ एकीकृत की जाती है, तो HBM की मांग में काफी कमी आएगी।
तो, चीन में LPDDR का उत्पादन कौन कर रहा है? उत्तर है CXMT, यानी ChangXin Memory Technologies। वे LPDDR की गति में केवल लगभग आधी पीढ़ी पीछे हैं, और घनत्व में एक पीढ़ी पीछे हैं, जो बहुत बड़ा अंतर नहीं है।
अतिरिक्त NAND के अलावा, चीनी AI इकोसिस्टम जल्द ही पर्याप्त LPDDR आपूर्ति भी रखेगा। क्या यह कैलकुलेशन के दबाव को कम कर सकता है? उत्तर है: हाँ। आगे पढ़ें।

स्मृति का बुद्धिमानी से उपयोग करने से GPU / ASIC पर दबाव कम हो सकता है
NAND का उपयोग KV Cache को संग्रहित करने का उद्देश्य समझना आसान है: यह KV Cache को लंबे समय तक बनाए रखने की अनुमति देता है, HBM पर दबाव को कम करता है, और KV Cache की पुनर्गणना से बचकर GPU और ASIC की गणना भार को कम करता है।
तो, क्या LPDDR भी इसी तरह से कार्य कर सकता है? क्या यह केवल एक ऐसा स्टोरेज स्थान ही है जो 'आवश्यकता के अनुसार तत्काल' वेट्स को HBM में स्ट्रीम करता है, या यह गणना के दबाव को और कम कर सकता है?
जवाब है: हाँ।
LPDDR का उपयोग Engram नामक बड़ी मात्रा में सामग्री को संग्रहित करने के लिए किया जा सकता है। DeepSeek के Engram पेपर में, उन्होंने बताया कि MoE, मॉडल क्षमता को शर्तित गणना के माध्यम से विस्तारित कर सकता है, लेकिन Transformer खुद में एक मूलभूत 'ज्ञान खोज' तंत्र की कमी है। इसलिए, Transformer को अक्सर खोज प्रक्रिया को कमजोर तरीके से गणना के माध्यम से अनुकरण करना पड़ता है।
इस समस्या को हल करने के लिए, DeepSeek ने Engram मॉड्यूल पेश किया। यह पारंपरिक N-gram एम्बेडिंग को आधुनिक बनाता है और इसे एक हैश-आधारित O(1) खोज तंत्र में बदल देता है, जिससे एक पूरक विरल पथ बनता है, जिसे वे सशर्त स्मृति (conditional memory) कहते हैं।
यह तरीका गणना को बचाता है, लेकिन embedding table को संभालने के लिए मेमोरी की आवश्यकता होती है, और यह टेबल स्वयं बहुत विशाल हो सकती है।
इसका मूलतः एक प्रारंभिक “स्मृति के लिए गणना” का समाधान है। लेकिन इसकी मुख्य खोज यह है: प्रति बिट डेटा पढ़ने की लागत के आधार पर, “स्मृति” पक्ष काफी सस्ता है—एक LPDDR खोज, डेटा को कई स्तरों वाले Transformer के माध्यम से पूरी तरह से गुजारकर एक फॉरवर्ड पास करने की तुलना में कहीं अधिक सस्ती है। इसलिए, बड़े पैमाने पर, यह एक बहुत ही लाभदायक विनिमय है।
यही DeepSeek द्वारा कुछ मेमोरी के बलिदान के बदले कैलकुलेशन बचाने का तरीका है।

करने योग्य त्याग
चूंकि चीनी GPU और ASIC के पास समतुल्य स्तर की चिप ट्रांजिस्टर घनत्व नहीं है और न ही EUV है, इसलिए उनकी मूल FLOPs प्रदर्शन क्षमता में पश्चिमी GPU की तुलना में लंबे समय तक पिछड़ाव रह सकता है। उनके पास उन्नत पैकेजिंग में अभी भी स्पष्ट अंतर है। इसलिए, यह तुलना बहुत महत्वपूर्ण है, खासकर जब चीन NAND और LPDDR मेमोरी का बड़े पैमाने पर उत्पादन कर सकता है।
DeepSeek की दीर्घकालिक रणनीति का समीक्षा करें
इन नवीनताओं से लगता है कि DeepSeek का लक्ष्य अभी कुछ अरब डॉलर का लाभ कमाना नहीं है। इसके पिछले कई निर्णय इस बात की पुष्टि करते हैं: अभी तक कोई मल्टीमॉडल, कोई वॉइस मॉडल नहीं, और वीडियो मॉडल की बात ही नहीं हो रही।
वह वास्तव में एक लंबे समय तक चलने वाले, शायद 10 ट्रिलियन डॉलर के पैमाने के खेल में भाग ले रहा है: एक वैकल्पिक AI हार्डवेयर पारिस्थितिकी तंत्र का निर्माण करना।
यह केवल चीनी मेमोरी निर्माताओं को चीन और वैश्विक AI हार्डवेयर बाजार में महत्वपूर्ण खिलाड़ी बनाने के लिए ही नहीं, बल्कि AI मॉडल के प्रशिक्षण और सेवा के लिए संसाधनों की मांग को मूलभूत रूप से कम करने के लिए भी है, जिससे यह अधिक लागत-कुशल हो जाए। इस प्रकार, कई GPU, ASIC निर्माता और नेटवर्क चिप निर्माताओं के लिए संभावित विकल्प बनने का अवसर है।
इसी समय, ये नवाचार पश्चिमी ओपन सोर्स इकोसिस्टम और नई पीढ़ी के हार्डवेयर निर्माताओं को भी लाभ पहुंचाएंगे।
सभी संकेत पहले से ही सामने आ चुके हैं। आइए अब तक डीपसीक द्वारा प्रस्तुत इन नवाचारों का विस्तार से समीक्षा करें:
1. DeepSeek V2 में पेश किए गए मिक्स्चर ऑफ एक्सपर्ट्स मॉडल (MoE) और MLA
DeepSeek ने V2 में MoE और MLA शामिल किए। MoE ने उच्च बुद्धिमत्ता वाले मॉडल के प्रशिक्षण के लिए आवश्यक गणना को लगभग 40% से 50% तक कम कर दिया; MLA ने KV Cache को 90% तक कम कर दिया।
इससे KV Cache को SSD पर अनलोड करना काफी कुशल हो जाता है।
ये विचार सबसे पहले 2024 के मई में DeepSeek द्वारा प्रकाशित DeepSeek V2 पेपर में दिखाई दिए। बाद में, ये DeepSeek V3 के प्रशिक्षण के लिए आधार बने। उस समय, DeepSeek ने केवल 2048 अपग्रेड किए गए H800 GPU का उपयोग करके एक ऐसा सिस्टम तैयार किया जो बंद स्रोत मॉडल के स्तर के बराबर प्रदर्शन करता था।

2. DSA: DeepSeek V3.2 Exp में लंबे संदर्भ परिदृश्यों में गणना लागत को कम करने और HBM बैंडविड्थ के दबाव को कम करने के लिए पेश किया गया।
DSA की मुख्य भूमिका यह सुनिश्चित करना है कि गणना की मात्रा आपूर्ति की लंबाई के बढ़ने के साथ लगातार न बढ़े। नीचे के चार्ट को देखें: आपूर्ति की लंबाई बढ़ने के साथ, DeepSeek-V3.2 का संसाधन समय लगभग स्थिर रहता है।

3. mHC: DeepSeek ने 2025 के दिसंबर में पेपर «mHC: Manifold-Constrained Hyper-Connections» में प्रस्तुत किया।
mHC एक नवीनता है जो DeepSeek द्वारा मैक्रो आर्किटेक्चर स्तर पर की गई है, जो Transformer स्तरों के बीच सूचना प्रवाह को पुनः डिज़ाइन करती है।
पिछले समय से, ResNet के बाद, मॉडल आमतौर पर मानक शेष संयोजन, यानी x + F(x) का उपयोग करते थे। mHC का दृष्टिकोण, शेष प्रवाह को कई समानांतर सूचना चैनलों में विस्तारित करना है, और मॉडल को इन चैनलों के बीच एक सीखने योग्य मिश्रण की अनुमति देना है। मुख्य बात यह है कि यह मिश्रण आव्यूह को द्वि-यादृच्छिक आव्यूह के रूप में सीमित करता है, अर्थात् इसे Sinkhorn-Knopp प्रक्षेप के माध्यम से Birkhoff बहुफलक पर सीमित करता है। इससे गणितीय रूप से गारंटी मिलती है कि चाहे मॉडल कितना भी गहरा हो, संकेत का आयाम स्थिर रहेगा।
यह पहले अनियंत्रित हाइपर-कनेक्शन्स के सामने आने वाली विनाशकारी अस्थिरता को हल करता है। हाइपर-कनेक्शन्स को मूल रूप से बाइटडांस द्वारा प्रस्तावित किया गया था, लेकिन बिना किसी प्रतिबंध के, सिग्नल गेन 270 अरब पैरामीटर स्केल पर 3000 गुना तक बढ़ जाता है, जिससे प्रशिक्षण पूरी तरह से विफल हो जाता है।
mHC की गणना लागत बहुत कम है: यह केवल लगभग 6.7% का वास्तविक प्रशिक्षण समय ओवरहेड लाता है, क्योंकि यह ध्यान स्तर या FFN स्तर के FLOPs को नहीं बदलता, बल्कि इन स्तरों के आउटपुट के माध्यम से पथ बदलता है।
लेकिन इससे प्रदर्शन में काफी स्पष्ट सुधार हुआ है: 270 अरब पैरामीटर स्केल पर, mHC ने BIG-Bench Hard निष्कर्ष लेने के कार्यों में 7.2 अंक, DROP में 3.2 अंक, GSM8K गणित कार्यों में 2.8 अंक, और MMLU सामान्य ज्ञान कार्यों में 1.4 अंक का सुधार किया। और ये सभी सुधार समान मॉडल स्केल और लगभग समान कैलकुलेशन बजट के साथ प्राप्त किए गए हैं।
मूल रूप से, mHC लगभग अतिरिक्त FLOPs के बिना, एक अधिक समृद्ध और अधिक व्यक्तिपूर्ण क्रॉस-लेयर जानकारी रूटिंग टॉपोलॉजी प्रदान करके अधिक इकाई पैरामीटर बुद्धिमत्ता प्राप्त करता है।

mHC एक जटिल आर्किटेक्चर डिज़ाइन है, लेकिन यह अधिक स्थिर प्रशिक्षण प्रक्रिया और अधिक इकाई पैरामीटर बुद्धिमत्ता प्रदान कर सकता है।
4, CSA, HSA: DeepSeek ने अप्रैल 2026 में V4 में पेश किया।
CSA और HSA का लक्ष्य, KV Token को संपीड़ित करके KV Cache की आवश्यकता को और 90% तक कम करना है, जिससे आवश्यक FLOPs में भी भारी कमी आए और HBM तथा GPU / ASIC दोनों पर दबाव कम हो।

5. Engram: DeepSeek ने 2026 की पहली तिमाही में इसे पेश किया, जो मूल रूप से कैलकुलेशन दक्षता के लिए कुछ हद तक मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।
जैसा कि नीचे के विस्तृत चार्ट में दिखाया गया है, समान कुल पैरामीटर बजट के साथ, Engram ने स्पष्ट प्रदर्शन में सुधार लाया है।

6. एनग्राम: डीपसीक ने 2026 की पहली तिमाही में पेश किया, जो मूल रूप से कैलकुलेशन दक्षता के लिए कुछ हद तक मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।
जैसा कि नीचे के विस्तृत चार्ट में दिखाया गया है, समान कुल पैरामीटर बजट के साथ, Engram ने स्पष्ट प्रदर्शन में सुधार लाया है।

यह DeepSeek द्वारा V4 पेपर में हार्डवेयर निर्माताओं को दी गई सलाह है। मुझे पूरा विश्वास है कि ऑफलाइन बातचीत में उनके द्वारा दिए गए प्रतिक्रिया केवल अधिक होंगे।
7. टाइललैंग में निवेश भी एक ही दिशा की ओर इशारा करता है: डीपसीक केवल अपनी कैलकुलेशन सीमा को हल करने में नहीं, बल्कि चीनी हार्डवेयर इकोसिस्टम को पश्चिमी इकोसिस्टम के साथ प्रतिस्पर्धा करने की क्षमता प्रदान करने में सक्रिय रूप से शामिल है।
TileLang के साथ, डेवलपर्स केवल एक बार kernel — अर्थात् गणना के लिए निचले स्तर का कोड — लिख सकते हैं, और फिर इसे उन बहुत सारे हार्डवेयर प्लेटफॉर्म पर सफलतापूर्वक चला सकते हैं जिनके लिए TileLang बैकएंड समर्थित है।
मुझे उम्मीद है कि अन्य चीनी AI प्रयोगशालाएँ भी क्रमिक रूप से शामिल होंगी। इससे चीनी हार्डवेयर निर्माताओं को ऐसे 'CUDA मोती' का सामना करने में अप्रत्यक्ष रूप से मदद मिलेगी। इसके साथ ही, AMD जैसे पश्चिमी हार्डवेयर की क्षमताओं को भी अधिक स्वतंत्रता मिलेगी।
ध्यान दें कि चीन के कई AI हार्डवेयर प्लेटफॉर्म पहले से ही CUDA संगतता या CUDA ट्रांसलेशन लेयर प्रदान करते हैं। उदाहरण के लिए, मोएर टेक्नोलॉजीज, मूक्सी, बिरेन और टियानशु ज्ञानकेंद्र जैसे चीनी चिप निर्माता CUDA संगतता के लिए ट्रांसलेशन लेयर का उपयोग करते हैं। इसलिए सिद्धांत रूप से, उन्हें TileLang की आवश्यकता नहीं हो सकती।

बड़े पैमाने पर रीइनफोर्समेंट लर्निंग और RSI
जब DeepSeek को अधिक कैलकुलेशन स्रोत, यानी विकल्पित हार्डवेयर मिलते हैं और मॉडल की खुद की कैलकुलेशन संसाधनों की आवश्यकता कम होती है, तो यह अधिक दांव वाले प्रशिक्षण परियोजनाओं, विशेष रूप से पुनर्बलन अधिगम के बाद के प्रशिक्षण को आगे बढ़ाने में सक्षम हो जाता है।
रीइन्फोर्समेंट लर्निंग को बहुत सारी ट्रैजेक्टरीज़ बनाने की आवश्यकता होती है, जिसका अर्थ है ट्रिलियन्स टोकन उत्पन्न करना। यह प्रक्रिया जल्द ही अत्यंत महंगी हो जाती है। इसके अलावा, यदि 100 लाख संदर्भ लंबाई के मॉडल को प्रशिक्षित करना है, तो उसी लंबाई की ट्रैजेक्टरीज़ को उत्पन्न करना होगा। केवल इस प्रकार की अत्यधिक लंबी ट्रैजेक्टरीज़ पर मॉडल को प्रशिक्षित करके ही लंबे समय तक के कार्यों का समर्थन संभव हो पाएगा।
इसके अलावा, हार्डवेयर विकल्पों में वृद्धि के कारण, DeepSeek द्वारा उपलब्ध हार्डवेयर संसाधन भी अधिक होंगे, जिससे स्वचालित अनुसंधान, जिसे RSI कहा जाता है, बढ़ेगा। RSI का अर्थ है AI द्वारा स्वयं प्रयोगों की डिज़ाइन और निष्पादन। इस विधि में बहुत सारी प्रयास-त्रुटि शामिल होगी और लागत तेजी से बढ़ेगी। लेकिन पूरे मॉडल डिज़ाइन स्पेस की खोज के लिए RSI अत्यंत महत्वपूर्ण है। AGI की ओर बढ़ने से पहले, और उसके बाद ASI की ओर बढ़ने से पहले, DeepSeek को RSI क्षमता होनी चाहिए।
DeepSeek आज जो कर रहा है, पूरा उद्योग कल उसका अनुसरण करेगा
DeepSeek के एक्सपर्ट मिक्स्ड मॉडल, MLA, DSA आदि क्षेत्रों में नवीनता को विश्व और चीन के अन्य AI प्रयोगशालाओं द्वारा क्रमिक रूप से अपनाया गया है।
उदाहरण के लिए, GLM श्रृंखला मॉडल के विकासक ZAI ने MLA और DSA का उपयोग किया है। किमी, जो मूनशॉट है, ने भी MLA का उपयोग किया है और खुलकर यह बताया है कि इसकी आर्किटेक्चर DeepSeek आर्किटेक्चर पर आधारित है। विपरीत रूप से, DeepSeek ने Muon ऑप्टिमाइज़र का उपयोग किया है, जबकि Muon सबसे पहले किमी (मूनशॉट) द्वारा बड़े पैमाने पर प्रशिक्षण में अपनाया गया था।
ध्यान दें:
MoE को सबसे पहले 2017 में Google द्वारा प्रस्तुत किया गया था, जिसके मुख्य लेखक Noam Shazeer थे। DeepSeek का योगदान MoE को बड़े पैमाने पर लागू करने और अपनी स्वयं की संबंधित तकनीकों का आविष्कार करने में है।
Muon, जो Newton-Schulz ऑप्टिमाइज़र द्वारा MomentUm Orthogonalized है, 2024 के अंत में मशीन लर्निंग शोधकर्ता Keller Jordan द्वारा प्रस्तावित किया गया था। Kimi (Moonshot) टीम पहली टीम थी जिसने इसे बड़े पैमाने पर प्रशिक्षण के लिए उपयोग किया।
तो पैसे कमाने की समस्या क्या होगी?
हम ओपनएआई के इस दिलचस्प उदाहरण को देख सकते हैं।
OpenAI को AMD और Cerebras के स्टॉक खरीदने के लिए कम कीमत पर वैल्यूएशन वॉरंट्स / ऑप्शन्स मिले हैं, जो उनकी कैलकुलेशन उपभोग की मील के पत्थर से जुड़े हुए हैं। AMD और Cerebras के लिए यह बहुत फायदेमंद लेनदेन है, क्योंकि जब OpenAI उनके हार्डवेयर का उपयोग करने का वादा करता है, तो उनकी दीर्घकालिक सफलता की संभावना बहुत बढ़ जाती है।
AMD के घोषणा पत्र में ऐसा एक अनुच्छेद है:
समझौते के एक हिस्से के रूप में, दोनों पक्षों के रणनीतिक हितों को और अधिक समन्वयित करने के लिए, AMD ने OpenAI को अधिकतम 160 मिलियन AMD सामान्य शेयर खरीदने के अधिकार वाले वॉरंट जारी किए हैं, जो विशिष्ट मील के पत्थर पूरे होने पर क्रमिक रूप से प्राप्त होंगे। पहला बैच प्रारंभिक 1 गीगावॉट तकनीक स्थापित करने पर प्राप्त होगा, और बाद के बैच 6 गीगावॉट तक खरीदारी के विस्तार के साथ-साथ प्राप्त होंगे। प्राप्ति की शर्तें AMD के निर्धारित स्टॉक मूल्य लक्ष्य प्राप्त करने और OpenAI द्वारा AMD के व्यापक स्थापना के लिए आवश्यक तकनीकी और व्यावसायिक मील के पत्थर पूरे करने से भी जुड़ी हुई हैं।

मुझे उम्मीद है कि डीपसीक भी चीनी मेमोरी, ASIC, CPU और नेटवर्क टेक्नोलॉजी स्टैक निर्माताओं के साथ इसी तरह के समझौते करेगा और उनके हार्डवेयर स्टैक को अग्रणी AI कार्यभार के लिए उपयुक्त बनाने के लिए गहराई से सहयोग करेगा।
考虑到包括东亚盟友在内的所有西方国家的 AI 股票总市值已远超 10 万亿美元,这种“通过合作获得股权回报”的方式,将使 DeepSeek 有机会帮助中国打造一个同样庞大的产业,并在其中分得自己的一份,最终实现其 1 万亿美元的估值。
यह न केवल डीपसीक को पारंपरिक एप्लिकेशन सब्सक्रिप्शन बिजनेस से बहुत अधिक पैसा कमाने में मदद करेगा, बल्कि इसका दावा किया गया लक्ष्य “AGI को हर किसी तक पहुंचाना” भी पूरा करेगा। लियांग वेनफेंग जिम साइमन्स के एक श्रद्धालु प्रशंसक हैं और पर्याप्त बुद्धिमान पूंजीपति हैं, वे इस बात को नहीं छोड़ सकते।
अगर आप दीपसीक द्वारा अब तक किए गए सभी कार्यों को वापस देखें, तो इसकी एक ही व्याख्या सबसे अच्छी तरह से समझ में आती है।

ये प्रमुख AI स्टॉक हैं। चित्र में हाइपरस्केलर्स, अर्थात् अत्यधिक पैमाने पर क्लाउड फर्म, और कई अन्य संबंधित कंपनियाँ शामिल नहीं हैं।
