डीपसीक की 10 ट्रिलियन डॉलर की रणनीति: ओपन सोर्स और एआई हार्डवेयर परितंत्र

डीपसीक की 10 ट्रिलियन डॉलर की विशाल रणनीति

मूल लेखक: @bookwormengr

Peggy, BlockBeats

संपादकीय टिप्पणी: पिछले वर्ष, डीपसीक के चर्चा का अधिकांश हिस्सा मॉडल प्रदर्शन, ओपन सोर्स रणनीति और मूल्य प्रतिस्पर्धा पर केंद्रित रहा। लेकिन यदि आप केवल 'सदस्यता बेच रहे हैं या नहीं', 'क्या इसमें मल्टीमॉडल है', 'क्या यह कोडिंग एजेंट बना सकता है' के आधार पर डीपसीक को समझते हैं, तो आप उस वास्तविक चीज को कम मूल्यांकन कर सकते हैं जिसे यह बदलना चाहता है।

यह लेख एक अधिक आक्रामक निष्कर्ष प्रस्तुत करता है: डीपसीक का लक्ष्य शायद अल्पकालिक रूप से एप्लिकेशन स्तर पर राजस्व अर्जित करना नहीं है, बल्कि एक श्रृंखला के मूलभूत आधारभूत नवाचारों के माध्यम से AI प्रशिक्षण और अनुमान की लागत संरचना को पुनर्गठित करना है, और अप्रत्यक्ष रूप से एक नया हार्डवेयर पारिस्थितिकी बनाना है। MoE, MLA से लेकर DSA, CSA, mHC, Engram, और फिर Dual Path और TileLang तक, डीपसीक की तकनीकी राह हमेशा एक केंद्रीय प्रश्न के चारों ओर घूमती है: HBM, उन्नत प्रक्रिया, पैकेजिंग और CUDA पारिस्थितिकी की सीमाओं के बीच, कम उच्च-अंत कैलकुलेशन के साथ अधिक शक्तिशाली मॉडल कैसे चलाएं।

सबसे महत्वपूर्ण बात यह नहीं है कि "DeepSeek API या सदस्यता से कुछ अरब डॉलर कमा सकता है", बल्कि यह है कि क्या यह मॉडल क्षमता, मेमोरी व्यवस्था और घरेलू हार्डवेयर पारिस्थितिकी को एक साथ बांध रहा है। KV Cache संपीड़न HBM पर निर्भरता को कम करता है, NAND और SSD लंबे समय तक कैश के लिए उपयुक्त हैं, LPDDR वजन स्ट्रीमिंग और Engram संग्रहण के लिए उपयोग किया जा सकता है, और TileLang CUDA की रक्षा को कमजोर करने की कोशिश कर रहा है। यदि ये नवाचार लगातार फैलते रहे, तो लाभार्थी केवल DeepSeek ही नहीं होंगे, बल्कि स्टोरेज, ASIC, GPU, नेटवर्क चिप और पूरी AI बुनियादी ढांचा श्रृंखला भी होंगी।

हालाँकि, "10 ट्रिलियन डॉलर के उद्योग पारिस्थिति" और "1 ट्रिलियन डॉलर के मूल्यांकन" के बारे में लेख में दिए गए निष्कर्ष अभी भी प्रबल अनुमान पर आधारित हैं। लेकिन यह DeepSeek को समझने का एक महत्वपूर्ण मार्ग प्रदान करता है: ओपन सोर्स होना आवश्यक रूप से व्यावसायिकीकरण को छोड़ने का मतलब नहीं है, और कम कीमत होना सिर्फ बाजार को सब्सिडी देने का मतलब नहीं है। DeepSeek के लिए, वास्तविक व्यवसाय संभवतः एप्लिकेशन स्तर पर नहीं, बल्कि अधिक हार्डवेयर को उपलब्ध बनाने और कम लागत के AI सप्लाई को संभव बनाने में है। दूसरे शब्दों में, यह संभवतः मॉडल को ही नहीं, बल्कि अगली पीढ़ी के AI बुनियादी ढांचे की संभावना बेच रहा है।

नीचे मूल पाठ है:

ChangXin Memory

क्या आपने कभी सोचा है कि DeepSeek वास्तव में कैसे कमाएगा, और संभवतः बहुत अधिक कमाएगा?

इसने GLM, MoonShot और MiniMax की तरह प्रतिस्पर्धी प्रोग्रामिंग सब्सक्रिप्शन योजनाएँ नहीं लॉन्च की हैं; न ही इसके पास मल्टीमॉडल, ऑडियो और वीडियो मॉडल हैं। अब तक, इसके पास अभी तक अपना हैरन्स भी नहीं है—यानी मॉडल कॉल, टूल एक्सेस और कार्य निष्पादन के लिए बाहरी रनटाइम फ्रेमवर्क—हालाँकि, उन्होंने हाल ही में इस प्रणाली को बनाने के लिए संबंधित पदों की भर्ती शुरू कर दी है।

इसी बीच, डीपसीक लगभग हमेशा से ओपन सोर्स के साथ खड़ा रहा है, और अपने "रहस्यों" को साझा करने के लिए भी तैयार है। क्या यह पागलपन नहीं है? क्या यह बस पैसे जला रहा है? क्या उन निवेशकों, जो इसमें 100 अरब डॉलर निवेश करने की योजना बना रहे हैं, अपना पैसा सीवर में फेंक रहे हैं?

मुझे व्यक्तिगत रूप से लगता है कि उत्तर ठीक विपरीत है।

अगले, मैं डीपसीक द्वारा अब तक किए गए कार्यों के आधार पर कुछ अवलोकन प्रस्तुत करूंगा और विश्लेषण करूंगा कि यह किस रणनीति का पालन कर रहा है। डीपसीक के सीईओ लियांग वेनफेंग का लक्ष्य, संभवतः केवल वर्तमान मॉडल प्रतिस्पर्धा तक सीमित नहीं है। उनका लक्ष्य शायद एक बड़ा पुरस्कार है: डीपसीक के पास 1 ट्रिलियन डॉलर के मूल्यांकन को हासिल करने का अवसर है, साथ ही 10 ट्रिलियन डॉलर के आकार की एक नई उद्योग को प्रेरित करने का अवसर है।

ChangXin Memory

TechInAsia की रिपोर्ट DeepSeek के नवीनतम फंडिंग राउंड के बारे में

डीपसीक की "हीरोज जर्नी" पर वापसी

डीपसीक ने हमेशा विपरीत पवनों के खिलाफ आगे बढ़ने का चयन किया है। इसने लगातार थोड़े अधिक शक्तिशाली मॉडल लॉन्च करने और उन्हें तुरंत मुनाफा कमाने वाले एप्लिकेशन, जैसे प्रोग्रामिंग सब्सक्रिप्शन स्कीम्स, में बदलने के बजाय इंतजार किया। 27 जनवरी, 2025 को, मैंने एक वायरल ट्वीट पोस्ट की थी, जिसमें मैंने अपनी नजर में डीपसीक की 'हीरोज जर्नी' के बारे में बताया था। आज, यह कहानी और भी दिलचस्प हो गई है।

जब दूसरे घने मॉडल बनाने की कोशिश कर रहे थे, तब DeepSeek ने अधिक कठिन ट्रेन करने वाले एक्सपर्ट मिक्सचर मॉडल (Mixture of Experts, MoE) का चयन किया।

उन्होंने "प्रथम सिद्धांत" दृष्टिकोण का उपयोग करते हुए, तब के प्रचलित लेकिन अधिक लागत वाले PPO रीइनफोर्समेंट लर्निंग एल्गोरिथम के स्थान पर एक नया GRPO एल्गोरिथम विकसित किया।

उन्होंने पाया कि सत्यापित पुरस्कार से बल्कि सीखना (Reinforcement Learning from Verified Rewards, RLVR) मॉडल की तर्क क्षमता में सुधार की कुंजी रणनीति है।

वे ने «मल्टी टोकन प्रेडिक्शन» के माध्यम से एक सरल अनुमानित डिकोडिंग रणनीति भी प्रस्तुत की है, जिससे प्रशिक्षण संकेत अधिक सघन हो गए हैं।

उन्होंने सीमित GPU संसाधनों के उपयोग की दक्षता बढ़ाने के लिए «जीरो बबल» (ZERO bubble) पाइपलाइन को पूरा किया।

उन्होंने एक एक्सपर्ट लोड बैलेंसर लॉन्च किया है, जिससे सभी के लिए MoE मॉडल डिप्लॉय करना आसान हो गया है। विशेष रूप से, 'वाइड एक्सपर्ट पैरेलल' स्ट्रैटेजी के माध्यम से, मॉडल बड़े batch के साथ सेवा प्रदान कर सकता है, जिससे इन्फरेंस लागत में काफी कमी आती है।

उन्होंने KV Cache की आवश्यकता को कम करने और संदर्भ लंबाई के बढ़ने के साथ बढ़ने वाली गणना की आवश्यकता को संभवतः स्थिर रखने के लिए MLA, DSA, CSA, HCA आदि तंत्रों का आविष्कार किया।

उन्होंने Engram का आविष्कार किया, जिसमें कैलकुलेशन की दक्षता के लिए मेमोरी का विनिमय किया जाता है।

उन्होंने mHC भी विकसित किया, जिससे मॉडल के स्केलिंग के साथ स्थिर प्रशिक्षण संभव हो पाता है। इसी तरह के अनेक उदाहरण हैं।

सबसे सामान्य कथा संरचना, "हीरोज जर्नी" में, हीरो कभी अपनी यात्रा के अंतिम लक्ष्य के बारे में शुरुआत से ही निर्णय नहीं लेता। वह यात्रा के दौरान सीखता है, धीरे-धीरे अपना वास्तविक महान मिशन पहचानता है, और अनेक बाधाओं के बावजूद उसे पूरा करता है। उसे कई संदेहवादी मिलते हैं, लेकिन वह उन्हें नज़रअंदाज़ करने का चयन करता है। उसे कई दुष्ट कारकों से भी सामना करना पड़ता है। उसमें स्पष्ट दोष या कमजोरियाँ होती हैं, लेकिन अंततः वह इन समस्याओं पर काबू पा लेता है और अपना मिशन पूरा करता है। वह असंभव प्रतीत होने वाली चुनौतियों का सामना करता है, लेकिन सहयोगी बनाने का तरीका ढूंढता है और सीखता है कि सीमित और मूल्यवान संसाधनों का कैसे समझदारी से उपयोग किया जाए। यही कारण है कि दर्शक हीरो के पक्ष में आवाज़ उठाते हैं। यही DeepSeek को अनुयायी, वैश्विक सम्मान और प्रतिपक्षी प्रदान करता है।

जैसा कि मैं आगे विस्तार से स्पष्ट करूँगा, डीपसीक ने इस राह पर लंबे समय तक चला है और धीरे-धीरे अपनी अंतिम नियति को पहचाना है: इसका लक्ष्य प्रोग्रामिंग सदस्यता योजनाओं को बेचना नहीं, बल्कि 10 ट्रिलियन डॉलर के चीनी AI हार्डवेयर पारिस्थितिकी तंत्र को बढ़ावा देना और अपने आप को 1 ट्रिलियन डॉलर के मूल्यांकन के साथ प्राप्त करना है। इस प्रक्रिया में, यह पश्चिमी हार्डवेयर पारिस्थितिकी तंत्र में कई नए प्रवेशकर्ताओं के लिए अवसर भी पैदा करेगा।

ChangXin Memory

कुछ दिलचस्प KV Cache गणनाओं से शुरू करें

कृपया @SemiAnalysis_ के इस हाल ही के ट्वीट को देखें:

ChangXin Memory

DeepSeek ने इस समस्या को किसी से भी बेहतर तरीके से हल कर लिया है!

चलिए कुछ दिलचस्प KV Cache कैलकुलेशन करते हैं। चिंता मत कीजिए, अगर आपको गणित पसंद नहीं है। हम हाल ही में जारित KV Cache कैलकुलेटर का उपयोग करके देखेंगे कि DeepSeek V4 Pro कितनी KV Cache बचत लाता है, और इसे नवीनतम GLM और Qwen मॉडल्स के साथ तुलना करेंगे।

मैं यहाँ 10 लाख संदर्भ लंबाई के साथ गणना कर रहा हूँ, मान लीजिए KV सटीकता 8 बिट है और इंडेक्सर सटीकता 16 बिट है। आप इस कैलकुलेटर को खुद भी आजमा सकते हैं: https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

आप अपने कैलकुलेटर को खुद भी खोलकर आजमा सकते हैं!

10 लाख संदर्भ लंबाई के साथ:

·DeepSeek V4 के लिए केवल 5.48GB HBM की आवश्यकता होती है;

·GLM-5 को 60GB HBM की आवश्यकता होती है;

·Qwen3-235B-A22B को अधिकतम 89GB HBM की आवश्यकता होती है।

ध्यान दें:

·DeepSeek एक 1.6 खरब पैरामीटर मॉडल है;

·GLM-5 लगभग 7000 अरब पैरामीटर है, और इसमें DeepSeek के MLA और DSA का उपयोग किया गया है, हालाँकि नवीनतम संपीड़ित ध्यान तंत्र का उपयोग अभी तक नहीं किया गया है;

·Qwen3-235B-A22B लगभग 2350 अरब पैरामीटर है, जिसमें GQA ध्यान तंत्र का उपयोग किया जाता है।

DeepSeek ने मेमोरी के दबाव को कम करने में मूलभूत योगदान दिया है। यदि इस तरह के नवीनीकरण का व्यापक रूप से उपयोग किया जाता है, तो लंबे समय तक चलने वाले Agent की संचालन लागत में भारी कमी आएगी और अगली लहर के नए अनुप्रयोगों को अनलॉक किया जा सकेगा।

ChangXin Memory

100 लाख टोकन कंटेक्स्ट और मॉडल स्केल के लिए KV कैश का उपयोग तुलना

«फैंसी» के पीछे की विधि

KV कैश का आकार इतना छोटा कैसे हो सकता है, जबकि मॉडल की गुणवत्ता को प्रभावित नहीं किया जाता, यही कारण है कि DeepSeek लंबे समय तक कैश प्रदान करने के लिए अत्यंत कम कीमत पर उपलब्ध है—इसकी कीमत Sonnet 4.6 कैश हिट कीमत से 3% से भी कम है, और DeepSeek कैश को कई घंटों तक बरकरार रख सकता है।

对于长周期任务而言，较小的 KV 缓存意味着可以更经济地将其卸载到 SSD 并在需要时重新加载，从而减少对 HBM 的依赖。从中国 AI 硬件产业的角度来看，HBM 不仅供应紧张，也是最难制造的内存类型之一。

इसके अलावा, डीपसीक ने SSD से KV Cache को तेजी से लोड करने की तकनीक विकसित की है, जिसका वर्णन उसके ड्वल पाथ पेपर में किया गया है।

ChangXin Memory

DeepSeek V4 के लिए KV Cache का संपीड़न बहुत बड़ा है, जिससे यह चरण अब आवश्यक भी नहीं रह सकता।

तो, KV कैश संपीड़न के सबसे सीधे लाभार्थी कौन हैं?

कौन बड़े पैमाने पर SSD की आपूर्ति कर रहा है? याद रखें, YMTC (चांगजियांग स्टोरेज) 3D NAND के क्षेत्र में एक विशालकाय बन रहा है। NAND, DeepSeek को KV की दोहरी गणना से बचने में मदद कर सकता है। विपरीत रूप से, DeepSeek NAND और SSD के लिए एक विशाल बाजार बना रहा है—जो न केवल चांगजियांग स्टोरेज को, बल्कि अन्य संबंधित निर्माताओं को भी लाभ पहुंचाएगा।

ChangXin Memory

हालांकि, यह केवल NAND और SSD के बारे में ही नहीं है।

LPDDR मेमोरी में भी विशाल क्षमता है। इसे मॉडल वेट्स को स्टोर करने के लिए उपयोग किया जा सकता है और आवश्यकता पड़ने पर इन वेट्स को HBM में स्ट्रीम किया जा सकता है, जिससे HBM की मांग पर दबाव कम होता है। SGLang टीम ने इसके बारे में एक बहुत अच्छा ब्लॉग पोस्ट जारी किया था। नीचे का चित्र इस समाधान के कार्यप्रणाली को दर्शाता है।

हालांकि DeepSeek ने इस योजना के लिए कोई विशिष्ट डिज़ाइन नहीं किया है, लेकिन इसकी MoE आर्किटेक्चर, स्वयं में बहुत सारे एक्सपर्ट मॉडल का होना, और 4 बिट वजन की विशेषता इस योजना को लागू करने को आसान बनाती हैं।

ChangXin Memory

यह चित्रण दर्शाता है कि मेमोरी का उपयोग कैसे किया जा सकता है और मॉडल वेट्स कैसे LPDDR से HBM में स्ट्रीम होते हैं। SGLang के ब्लॉग को पढ़ने की जोरदार सिफारिश की जाती है।

यदि यह नवीनता अत्यंत संकुचित और नुकसानरहित KV Cache के साथ एकीकृत की जाती है, तो HBM की मांग में काफी कमी आएगी।

तो, चीन में LPDDR कौन बना रहा है? उत्तर है CXMT, यानी ChangXin Memory Technologies। वे LPDDR की गति में केवल लगभग आधी पीढ़ी पीछे हैं, और घनत्व में एक पीढ़ी पीछे हैं, जो काफी कम अंतर है।

अतिरिक्त NAND के अलावा, चीन का AI इकोसिस्टम आगामी समय में पर्याप्त LPDDR आपूर्ति भी रखेगा। क्या यह कैलकुलेशन के दबाव को कम कर सकता है? उत्तर है: हाँ। आगे पढ़ें।

ChangXin Memory

स्मृति का बुद्धिमानी से उपयोग करने से GPU / ASIC पर दबाव कम हो सकता है

NAND का उपयोग KV Cache को संग्रहित करने का उद्देश्य समझना आसान है: यह KV Cache को अधिक समय तक बनाए रखता है, HBM पर दबाव को कम करता है, और KV Cache की पुनर्गणना को रोककर GPU और ASIC की गणना भार को कम करता है।

तो, क्या LPDDR भी इसी तरह से कार्य कर सकता है? क्या यह केवल एक ऐसा स्टोरेज स्थान ही है जो 'ऑन-डिमांड इमीडिएटली' वेट्स को HBM में स्ट्रीम करता है, या यह कॉम्प्यूटेशनल लोड को और भी कम कर सकता है?

जवाब है: हाँ।

LPDDR का उपयोग Engram नामक बड़ी मात्रा में सामग्री को संग्रहित करने के लिए किया जा सकता है। DeepSeek के Engram पेपर में, उन्होंने बताया कि MoE, शर्तित गणना के माध्यम से मॉडल क्षमता को विस्तारित कर सकता है, लेकिन Transformer खुद में एक मूलभूत 'ज्ञान खोज' तंत्र की कमी है। इसलिए, Transformer को अक्सर खोज प्रक्रिया को कमजोर तरीके से गणना के माध्यम से अनुकरण करना पड़ता है।

इस समस्या को हल करने के लिए, DeepSeek ने Engram मॉड्यूल पेश किया। यह पारंपरिक N-gram एम्बेडिंग को आधुनिक बनाता है और इसे एक हैश-आधारित O(1) खोज तंत्र में बदल देता है, जिससे एक पूरक स्पार्सिफिकेशन पथ बनता है, जिसे वे सशर्त स्मृति (conditional memory) कहते हैं।

यह तरीका गणना को बचाता है, लेकिन इम्बेडिंग टेबल को संभालने के लिए मेमोरी की आवश्यकता होती है, और यह टेबल स्वयं बहुत विशाल हो सकती है।

वास्तव में, यह एक पारंपरिक "मेमोरी के लिए कैलकुलेशन" का समाधान है। लेकिन इसका मुख्य अवलोकन यह है: प्रति बिट डेटा पढ़ने की लागत के आधार पर, "मेमोरी" पक्ष काफी सस्ता है—एक LPDDR खोज, डेटा को कई स्तरों वाले Transformer से गुजारकर एक फॉरवर्ड पास करने की तुलना में कहीं अधिक सस्ती है। इसलिए, बड़े पैमाने पर, यह एक बहुत ही लाभदायक विनिमय है।

यही DeepSeek द्वारा कुछ मेमोरी के बलिदान के बदले कैलकुलेशन बचाने का तरीका है।

ChangXin Memory

वह बदलाव जो करने योग्य है

चूंकि चीनी GPU और ASIC के पास समतुल्य स्तर की चिप ट्रांजिस्टर घनत्व नहीं है और न ही EUV है, इसलिए उनकी मूल FLOPs प्रदर्शन क्षमता में पश्चिमी GPU के साथ लंबे समय तक पिछड़ाव रह सकता है। उनके पास उन्नत पैकेजिंग में भी स्पष्ट अंतर है। इसलिए, यह विकल्प बहुत महत्वपूर्ण है, खासकर जब चीन NAND और LPDDR मेमोरी का बड़े पैमाने पर उत्पादन कर सकता है।

DeepSeek की दीर्घकालिक रणनीति का समीक्षा करें

इन नवीनताओं से लगता है कि DeepSeek का लक्ष्य अभी कुछ अरब डॉलर का लाभ कमाना नहीं है। इसके पिछले कई निर्णय इस बात की ओर संकेत करते हैं: अभी तक कोई मल्टीमॉडल, कोई वॉइस मॉडल नहीं, और वीडियो मॉडल की बात तो नहीं हो सकती।

वह वास्तव में एक ऐसे लंबे समय तक चलने वाले खेल में शामिल है, जिसमें धैर्य और संभावित रूप से 10 ट्रिलियन डॉलर का पैमाना शामिल है: एक वैकल्पिक AI हार्डवेयर पारिस्थिति का निर्माण करना।

यह केवल चीनी मेमोरी निर्माताओं को चीन और वैश्विक AI हार्डवेयर बाजार में महत्वपूर्ण खिलाड़ी बनाने के लिए ही नहीं, बल्कि संसाधनों की मांग को मूलभूत रूप से कम करके AI मॉडल के प्रशिक्षण और सेवा को अधिक लागत-कुशल बनाने के लिए भी है। इससे कई GPU, ASIC निर्माता और नेटवर्क चिप निर्माताओं को व्यवहार्य विकल्प बनने का अवसर मिलता है।

इसी समय, ये नवाचार पश्चिमी ओपन सोर्स इकोसिस्टम और नई पीढ़ी के हार्डवेयर निर्माताओं को भी लाभ पहुंचाएंगे।

सभी संकेत पहले से ही मौजूद थे। आइए अब तक डीपसीक द्वारा प्रस्तुत इन नवाचारों का विस्तार से समीक्षा करें:

1. DeepSeek V2 में पेश किए गए मिक्स्चर ऑफ एक्सपर्ट्स मॉडल (MoE) और MLA

DeepSeek ने V2 में MoE और MLA शामिल किए। MoE ने उच्च बुद्धिमत्ता वाले मॉडल के प्रशिक्षण के लिए आवश्यक गणना को लगभग 40% से 50% तक कम कर दिया; MLA ने KV Cache को 90% तक कम कर दिया।

इससे KV Cache को SSD पर अनलोड करना काफी कुशल हो जाता है।

ये विचार सबसे पहले 2024 के मई में DeepSeek द्वारा प्रकाशित DeepSeek V2 पेपर में दिखाई दिए। बाद में, ये DeepSeek V3 के प्रशिक्षण के लिए आधार बने। उस समय, DeepSeek ने केवल 2048 अपर्याप्त क्षमता वाली H800 GPU का उपयोग करके एक ऐसा सिस्टम तैयार किया जो बंद स्रोत मॉडल के स्तर के बराबर प्रदर्शन करता था।

ChangXin Memory

2. DSA: DeepSeek V3.2 Exp में लंबे संदर्भ परिदृश्यों में गणना लागत को कम करने और HBM बैंडविड्थ के दबाव को कम करने के लिए पेश किया गया।

DSA की मुख्य भूमिका यह सुनिश्चित करना है कि गणना की मात्रा आधारभूत लंबाई के बढ़ने के साथ लगातार न बढ़े। नीचे के चार्ट को देखें: आधारभूत लंबाई बढ़ने के साथ, DeepSeek-V3.2 का संसाधन समय लगभग स्थिर रहता है।

ChangXin Memory

3. mHC: DeepSeek ने 2025 के दिसंबर में पेपर «mHC: Manifold-Constrained Hyper-Connections» में प्रस्तुत किया।

mHC एक नवीनता है जो DeepSeek द्वारा मैक्रो आर्किटेक्चर स्तर पर की गई है, जो Transformer परतों के बीच सूचना प्रवाह को पुनः डिज़ाइन करती है।

पिछले समय से, ResNet के बाद, मॉडल आमतौर पर मानक शेष संयोजन, यानी x + F(x), का उपयोग करते थे। mHC का दृष्टिकोण, शेष प्रवाह को कई समानांतर सूचना चैनल में विस्तारित करना है, और मॉडल को इन चैनलों के बीच एक सीखने योग्य मिश्रण की अनुमति देता है। मुख्य बात यह है कि यह मिश्रण मैट्रिक्स को डबल स्टोकेस्टिक मैट्रिक्स के रूप में सीमित करता है, यानी इसे Sinkhorn-Knopp प्रक्षेप के माध्यम से Birkhoff बहुफलक पर सीमित करता है। इस प्रकार, गणितीय रूप से यह सुनिश्चित होता है कि चाहे मॉडल कितना भी गहरा हो, संकेत का आयाम स्थिर रहता है।

यह पहले अनियंत्रित हाइपर-कनेक्शन्स के सामने आने वाली विनाशकारी अस्थिरता को हल करता है। हाइपर-कनेक्शन्स को मूल रूप से बाइटडांस द्वारा प्रस्तावित किया गया था, लेकिन बिना किसी प्रतिबंध के, सिग्नल गेन 270 अरब पैरामीटर स्केल पर 3000 गुना तक बढ़ जाता है, जिससे प्रशिक्षण पूरी तरह से विफल हो जाता है।

mHC की गणना लागत बहुत कम है: यह केवल लगभग 6.7% का वास्तविक प्रशिक्षण समय ओवरहेड लाता है, क्योंकि यह ध्यान स्तर या FFN स्तर के FLOPs को नहीं बदलता, बल्कि इन स्तरों के आउटपुट के स्तर-बाहर रूटिंग को बदलता है।

लेकिन इससे प्रदर्शन में काफी स्पष्ट सुधार हुआ है: 270 अरब पैरामीटर स्केल पर, mHC ने BIG-Bench Hard निष्कर्ष लेने के कार्यों में 7.2 अंक, DROP में 3.2 अंक, GSM8K गणित कार्यों में 2.8 अंक, और MMLU सामान्य ज्ञान कार्यों में 1.4 अंक का सुधार किया। और ये सभी सुधार समान मॉडल स्केल और लगभग समान कैलकुलेशन बजट के साथ प्राप्त किए गए हैं।

मूलतः, mHC लगभग अतिरिक्त FLOPs के बिना, एक अधिक समृद्ध और अधिक व्यक्तिपूर्ण क्रॉस-लेयर जानकारी रूटिंग टोपोलॉजी प्रदान करके अधिक इकाई पैरामीटर बुद्धिमत्ता प्राप्त करता है।

ChangXin Memory

mHC एक जटिल आर्किटेक्चर डिज़ाइन है, लेकिन यह अधिक स्थिर प्रशिक्षण प्रक्रिया और अधिक इकाई पैरामीटर बुद्धिमत्ता प्रदान कर सकता है।

4, CSA, HSA: DeepSeek ने अप्रैल 2026 में V4 में पेश किया।

CSA और HSA का लक्ष्य, KV Token को संपीड़ित करके KV Cache की आवश्यकता को और 90% तक कम करना है, जिससे आवश्यक FLOPs में भी भारी कमी आए और HBM तथा GPU / ASIC दोनों पर दबाव कम हो।

ChangXin Memory

5. Engram: DeepSeek ने 2026 की पहली तिमाही में इसे पेश किया, जो मूल रूप से कुछ हद तक गणना की दक्षता के लिए मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।

जैसा कि नीचे विस्तृत चार्ट में दिखाया गया है, समान कुल पैरामीटर बजट के साथ, एनग्राम ने स्पष्ट प्रदर्शन में सुधार लाया है।

ChangXin Memory

6. Engram: DeepSeek ने 2026 की पहली तिमाही में इसे पेश किया, जो मूल रूप से कैलकुलेशन दक्षता के लिए कुछ हद तक मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।

ChangXin Memory

यह DeepSeek द्वारा V4 पेपर में हार्डवेयर निर्माताओं को दी गई सलाह है। मुझे पूरा विश्वास है कि ऑफलाइन बातचीत में उनकी प्रतिक्रिया और भी अधिक होगी।

7. टाइललैंग में निवेश भी एक ही दिशा की ओर इशारा करता है: डीपसीक केवल अपनी कैलकुलेशन सीमा को हल करने में नहीं, बल्कि चीनी हार्डवेयर इकोसिस्टम को पश्चिमी इकोसिस्टम के साथ प्रतिस्पर्धा करने की क्षमता प्रदान करने में सहायता कर रहा है।

TileLang के साथ, डेवलपर्स केवल एक बार kernel — अर्थात् गणना के लिए निचले स्तर का कोड — लिख सकते हैं, और फिर इसे उन अनेक हार्डवेयर प्लेटफॉर्म पर सफलतापूर्वक चला सकते हैं जिनके लिए TileLang बैकएंड समर्थित है।

मुझे उम्मीद है कि अन्य चीनी AI प्रयोगशालाएँ भी क्रमिक रूप से इसमें शामिल होंगी। इससे चीनी हार्डवेयर निर्माताओं को ऐसे 'CUDA मोहरा' का सामना करने में अप्रत्यक्ष रूप से मदद मिलेगी। इसके साथ ही, AMD जैसे पश्चिमी हार्डवेयर की क्षमता भी अधिक निकाली जा सकेगी।

ध्यान दें कि चीन के कई AI हार्डवेयर प्लेटफॉर्म पहले से ही CUDA संगतता या CUDA ट्रांसलेशन लेयर प्रदान करते हैं। उदाहरण के लिए, मोएर टेक्नोलॉजीज, मूक्सी, बिरेन और टियानशु ज्ञान केंद्र, CUDA के उच्च स्तर की संगतता प्राप्त करने के लिए ट्रांसलेशन लेयर का उपयोग करने वाले चीनी चिप निर्माता हैं। इसलिए सिद्धांत रूप से, उन्हें TileLang की आवश्यकता नहीं है।

ChangXin Memory

大规模强化学习 और RSI

जब DeepSeek को अधिक कैलकुलेशन स्रोत, यानी अधिक हार्डवेयर विकल्प मिलेंगे और मॉडल की खुद की कैलकुलेशन संसाधनों की आवश्यकता कम होगी, तो यह अधिक दांव भरे प्रशिक्षण प्रोजेक्ट्स, विशेष रूप से रीइनफोर्समेंट लर्निंग आधारित पोस्ट-ट्रेनिंग को आगे बढ़ा पाएगा।

रीइन्फोर्समेंट लर्निंग को बहुत सारी ट्रैजेक्टरीज़ बनाने की आवश्यकता होती है, जिसका अर्थ है ट्रिलियन्स टोकन उत्पन्न करना। यह प्रक्रिया जल्द ही अत्यधिक महंगी हो जाती है। इसके अलावा, यदि 100 लाख कॉन्टेक्स्ट लंबाई का मॉडल ट्रेन करना है, तो उसी लंबाई की ट्रैजेक्टरीज़ को उत्पन्न करना होगा। केवल इस प्रकार की अत्यधिक लंबी ट्रैजेक्टरीज़ पर मॉडल को ट्रेन करके ही लंबे समय तक चलने वाले कार्यों का समर्थन किया जा सकता है।

इसके अलावा, हार्डवेयर विकल्पों में वृद्धि के कारण, डीपसीक द्वारा उपलब्ध हार्डवेयर संसाधन भी अधिक होंगे, जिससे स्वचालित अनुसंधान, यानी RSI को बढ़ावा मिलेगा। RSI का अर्थ है AI द्वारा स्वयं प्रयोगों की डिज़ाइन और निष्पादन। इस विधि में बहुत सारी प्रयास-त्रुटि शामिल होगी और लागत तेजी से बढ़ जाएगी। लेकिन पूरे मॉडल डिज़ाइन स्पेस की खोज के लिए RSI अत्यंत महत्वपूर्ण है। AGI की ओर बढ़ने से पहले, और उसके बाद ASI की ओर बढ़ने से पहले, डीपसीक को RSI क्षमता होनी चाहिए।

DeepSeek आज जो कर रहा है, पूरा उद्योग कल उसका अनुसरण करेगा

DeepSeek के विशेषज्ञ मिश्रित मॉडल, MLA, DSA आदि क्षेत्रों में नवीनता को विश्व और चीन के अन्य AI प्रयोगशालाओं द्वारा क्रमिक रूप से अपनाया गया है।

उदाहरण के लिए, GLM श्रृंखला मॉडल के विकासक ZAI ने MLA और DSA का उपयोग किया है। किमी, जो मूनशॉट है, ने भी MLA को अपनाया है और खुलकर घोषणा की है कि इसकी आर्किटेक्चर DeepSeek आर्किटेक्चर पर आधारित है। विपरीत रूप से, DeepSeek ने Muon ऑप्टिमाइज़र का उपयोग किया है, जबकि Muon सबसे पहले किमी (मूनशॉट) द्वारा बड़े पैमाने पर प्रशिक्षण में अपनाया गया था।

ध्यान दें:

MoE को सबसे पहले 2017 में Google द्वारा प्रस्तुत किया गया था, जिसके मुख्य लेखक Noam Shazeer थे। DeepSeek का योगदान MoE के विशाल पैमाने पर अनुप्रयोग और अपनी स्वयं की संबंधित तकनीकों के आविष्कार में है।

Muon, जो Newton-Schulz ऑप्टिमाइज़र द्वारा MomentUm Orthogonalized है, 2024 के अंत में मशीन लर्निंग शोधकर्ता Keller Jordan द्वारा प्रस्तावित किया गया था। Kimi (Moonshot) टीम पहली टीम थी जिसने इसे बड़े पैमाने पर प्रशिक्षण के लिए उपयोग किया।

पैसा कमाने की समस्या क्या होगी?

हम ओपनएआई के इस दिलचस्प उदाहरण को देख सकते हैं।

OpenAI को AMD और Cerebras के स्टॉक खरीदने के लिए कम कीमत पर वैल्यूएशन वॉरंट्स / ऑप्शन्स मिले हैं, जो उनकी कैलकुलेशन उपभोग की मील के पत्थर से जुड़े हुए हैं। AMD और Cerebras के लिए यह एक बहुत फायदेमंद लेनदेन है। क्योंकि जब OpenAI उनके हार्डवेयर का उपयोग करने का वादा करता है, तो उनकी दीर्घकालिक सफलता की संभावना बहुत बढ़ जाती है।

AMD के घोषणा पत्र में ऐसा एक अनुच्छेद है:

समझौते के एक हिस्से के रूप में, दोनों पक्षों के रणनीतिक हितों को और अधिक समन्वित करने के लिए, AMD ने OpenAI को अधिकतम 160 मिलियन AMD सामान्य शेयर खरीदने के अधिकार वाले वॉरंट जारी किए हैं, जो विशिष्ट मील के पत्थर पूरे होने पर क्रमिक रूप से प्राप्त होंगे। पहला बैच प्रारंभिक 1 गीगावॉट तकनीक स्थापित करने पर प्राप्त होगा, और बाद के बैच 6 गीगावॉट तक खरीदारी के विस्तार के साथ-साथ प्राप्त होंगे। प्राप्ति की शर्तें AMD के निर्धारित स्टॉक मूल्य लक्ष्य प्राप्त करने और OpenAI द्वारा AMD के बड़े पैमाने पर स्थापना के लिए आवश्यक तकनीकी और व्यावसायिक मील के पत्थर पूरे करने से भी जुड़ी हुई हैं।

ChangXin Memory

मुझे उम्मीद है कि डीपसीक भी चीनी मेमोरी, ASIC, CPU और नेटवर्क टेक्नोलॉजी स्टैक निर्माताओं के साथ समान समझौतों पर हस्ताक्षर करेगा और इन निर्माताओं के हार्डवेयर स्टैक को अग्रणी AI कार्यभार के लिए उपयुक्त बनाने के लिए गहराई से सहयोग करेगा।

考虑到包括东亚盟友在内的所有西方国家的 AI 股票总市值已远超 10 万亿美元，这种“通过合作获得股权回报”的方式，将使 DeepSeek 有机会帮助中国打造一个同样庞大的产业，并在其中分得自己的一份，最终实现自身 1 万亿美元的估值。

यह न केवल डीपसीक को पारंपरिक एप्लिकेशन सब्सक्रिप्शन बिजनेस से बहुत अधिक पैसा कमाने की अनुमति देगा, बल्कि उसका दावा किया गया लक्ष्य “AGI को हर किसी तक पहुंचाना” भी पूरा करेगा। लियांग वेनफेंग जिम साइमन्स के एक श्रद्धालु प्रशंसक हैं और पर्याप्त बुद्धिमान पूंजीपति हैं, वे इस बात को नहीं छोड़ सकते।

अगर आप दीपसीक द्वारा अब तक किए गए सभी कार्यों को वापस देखें, तो इसकी एक ही व्याख्या सबसे अच्छी तरह से समझ में आती है।

ChangXin Memory

ये प्रमुख AI स्टॉक हैं। चित्र में हाइपरस्केलर्स, अर्थात् अत्यधिक स्केलेबल क्लाउड फर्म, और कई अन्य संबंधित कंपनियाँ शामिल नहीं हैं।

Original link