डीपसीक की 10 ट्रिलियन डॉलर की विशाल रणनीति
मूल लेखक: @bookwormengr
Peggy, BlockBeats
संपादकीय टिप्पणी: पिछले वर्ष, डीपसीक के चर्चा का अधिकांश हिस्सा मॉडल प्रदर्शन, ओपन सोर्स रणनीति और मूल्य प्रतिस्पर्धा पर केंद्रित रहा। लेकिन यदि आप केवल 'सदस्यता बेच रहे हैं या नहीं', 'क्या इसमें मल्टीमॉडल है', 'क्या यह कोडिंग एजेंट बना सकता है' के आधार पर डीपसीक को समझते हैं, तो आप उस वास्तविक चीज को कम मूल्यांकन कर सकते हैं जिसे यह बदलना चाहता है।
यह लेख एक अधिक आक्रामक निष्कर्ष प्रस्तुत करता है: डीपसीक का लक्ष्य शायद अल्पकालिक रूप से एप्लिकेशन स्तर पर राजस्व अर्जित करना नहीं है, बल्कि एक श्रृंखला के मूलभूत आधारभूत नवाचारों के माध्यम से AI प्रशिक्षण और अनुमान की लागत संरचना को पुनर्गठित करना है, और अप्रत्यक्ष रूप से एक नया हार्डवेयर पारिस्थितिकी बनाना है। MoE, MLA से लेकर DSA, CSA, mHC, Engram, और फिर Dual Path और TileLang तक, डीपसीक की तकनीकी राह हमेशा एक केंद्रीय प्रश्न के चारों ओर घूमती है: HBM, उन्नत प्रक्रिया, पैकेजिंग और CUDA पारिस्थितिकी की सीमाओं के बीच, कम उच्च-अंत कैलकुलेशन के साथ अधिक शक्तिशाली मॉडल कैसे चलाएं।
सबसे महत्वपूर्ण बात यह नहीं है कि "DeepSeek API या सदस्यता से कुछ अरब डॉलर कमा सकता है", बल्कि यह है कि क्या यह मॉडल क्षमता, मेमोरी व्यवस्था और घरेलू हार्डवेयर पारिस्थितिकी को एक साथ बांध रहा है। KV Cache संपीड़न HBM पर निर्भरता को कम करता है, NAND और SSD लंबे समय तक कैश के लिए उपयुक्त हैं, LPDDR वजन स्ट्रीमिंग और Engram संग्रहण के लिए उपयोग किया जा सकता है, और TileLang CUDA की रक्षा को कमजोर करने की कोशिश कर रहा है। यदि ये नवाचार लगातार फैलते रहे, तो लाभार्थी केवल DeepSeek ही नहीं होंगे, बल्कि स्टोरेज, ASIC, GPU, नेटवर्क चिप और पूरी AI बुनियादी ढांचा श्रृंखला भी होंगी।
हालाँकि, "10 ट्रिलियन डॉलर के उद्योग पारिस्थिति" और "1 ट्रिलियन डॉलर के मूल्यांकन" के बारे में लेख में दिए गए निष्कर्ष अभी भी प्रबल अनुमान पर आधारित हैं। लेकिन यह DeepSeek को समझने का एक महत्वपूर्ण मार्ग प्रदान करता है: ओपन सोर्स होना आवश्यक रूप से व्यावसायिकीकरण को छोड़ने का मतलब नहीं है, और कम कीमत होना सिर्फ बाजार को सब्सिडी देने का मतलब नहीं है। DeepSeek के लिए, वास्तविक व्यवसाय संभवतः एप्लिकेशन स्तर पर नहीं, बल्कि अधिक हार्डवेयर को उपलब्ध बनाने और कम लागत के AI सप्लाई को संभव बनाने में है। दूसरे शब्दों में, यह संभवतः मॉडल को ही नहीं, बल्कि अगली पीढ़ी के AI बुनियादी ढांचे की संभावना बेच रहा है।
नीचे मूल पाठ है:

क्या आपने कभी सोचा है कि DeepSeek वास्तव में कैसे कमाएगा, और संभवतः बहुत अधिक कमाएगा?
इसने GLM, MoonShot और MiniMax की तरह प्रतिस्पर्धी प्रोग्रामिंग सब्सक्रिप्शन योजनाएँ नहीं लॉन्च की हैं; न ही इसके पास मल्टीमॉडल, ऑडियो और वीडियो मॉडल हैं। अब तक, इसके पास अभी तक अपना हैरन्स भी नहीं है—यानी मॉडल कॉल, टूल एक्सेस और कार्य निष्पादन के लिए बाहरी रनटाइम फ्रेमवर्क—हालाँकि, उन्होंने हाल ही में इस प्रणाली को बनाने के लिए संबंधित पदों की भर्ती शुरू कर दी है।
इसी बीच, डीपसीक लगभग हमेशा से ओपन सोर्स के साथ खड़ा रहा है, और अपने "रहस्यों" को साझा करने के लिए भी तैयार है। क्या यह पागलपन नहीं है? क्या यह बस पैसे जला रहा है? क्या उन निवेशकों, जो इसमें 100 अरब डॉलर निवेश करने की योजना बना रहे हैं, अपना पैसा सीवर में फेंक रहे हैं?
मुझे व्यक्तिगत रूप से लगता है कि उत्तर ठीक विपरीत है।
अगले, मैं डीपसीक द्वारा अब तक किए गए कार्यों के आधार पर कुछ अवलोकन प्रस्तुत करूंगा और विश्लेषण करूंगा कि यह किस रणनीति का पालन कर रहा है। डीपसीक के सीईओ लियांग वेनफेंग का लक्ष्य, संभवतः केवल वर्तमान मॉडल प्रतिस्पर्धा तक सीमित नहीं है। उनका लक्ष्य शायद एक बड़ा पुरस्कार है: डीपसीक के पास 1 ट्रिलियन डॉलर के मूल्यांकन को हासिल करने का अवसर है, साथ ही 10 ट्रिलियन डॉलर के आकार की एक नई उद्योग को प्रेरित करने का अवसर है।

TechInAsia की रिपोर्ट DeepSeek के नवीनतम फंडिंग राउंड के बारे में
डीपसीक की "हीरोज जर्नी" पर वापसी
डीपसीक ने हमेशा विपरीत पवनों के खिलाफ आगे बढ़ने का चयन किया है। इसने लगातार थोड़े अधिक शक्तिशाली मॉडल लॉन्च करने और उन्हें तुरंत मुनाफा कमाने वाले एप्लिकेशन, जैसे प्रोग्रामिंग सब्सक्रिप्शन स्कीम्स, में बदलने के बजाय इंतजार किया। 27 जनवरी, 2025 को, मैंने एक वायरल ट्वीट पोस्ट की थी, जिसमें मैंने अपनी नजर में डीपसीक की 'हीरोज जर्नी' के बारे में बताया था। आज, यह कहानी और भी दिलचस्प हो गई है।
जब दूसरे घने मॉडल बनाने की कोशिश कर रहे थे, तब DeepSeek ने अधिक कठिन ट्रेन करने वाले एक्सपर्ट मिक्सचर मॉडल (Mixture of Experts, MoE) का चयन किया।
उन्होंने "प्रथम सिद्धांत" दृष्टिकोण का उपयोग करते हुए, तब के प्रचलित लेकिन अधिक लागत वाले PPO रीइनफोर्समेंट लर्निंग एल्गोरिथम के स्थान पर एक नया GRPO एल्गोरिथम विकसित किया।
उन्होंने पाया कि सत्यापित पुरस्कार से बल्कि सीखना (Reinforcement Learning from Verified Rewards, RLVR) मॉडल की तर्क क्षमता में सुधार की कुंजी रणनीति है।
वे ने «मल्टी टोकन प्रेडिक्शन» के माध्यम से एक सरल अनुमानित डिकोडिंग रणनीति भी प्रस्तुत की है, जिससे प्रशिक्षण संकेत अधिक सघन हो गए हैं।
उन्होंने सीमित GPU संसाधनों के उपयोग की दक्षता बढ़ाने के लिए «जीरो बबल» (ZERO bubble) पाइपलाइन को पूरा किया।
उन्होंने एक एक्सपर्ट लोड बैलेंसर लॉन्च किया है, जिससे सभी के लिए MoE मॉडल डिप्लॉय करना आसान हो गया है। विशेष रूप से, 'वाइड एक्सपर्ट पैरेलल' स्ट्रैटेजी के माध्यम से, मॉडल बड़े batch के साथ सेवा प्रदान कर सकता है, जिससे इन्फरेंस लागत में काफी कमी आती है।
उन्होंने KV Cache की आवश्यकता को कम करने और संदर्भ लंबाई के बढ़ने के साथ बढ़ने वाली गणना की आवश्यकता को संभवतः स्थिर रखने के लिए MLA, DSA, CSA, HCA आदि तंत्रों का आविष्कार किया।
उन्होंने Engram का आविष्कार किया, जिसमें कैलकुलेशन की दक्षता के लिए मेमोरी का विनिमय किया जाता है।
उन्होंने mHC भी विकसित किया, जिससे मॉडल के स्केलिंग के साथ स्थिर प्रशिक्षण संभव हो पाता है। इसी तरह के अनेक उदाहरण हैं।
सबसे सामान्य कथा संरचना, "हीरोज जर्नी" में, हीरो कभी अपनी यात्रा के अंतिम लक्ष्य के बारे में शुरुआत से ही निर्णय नहीं लेता। वह यात्रा के दौरान सीखता है, धीरे-धीरे अपना वास्तविक महान मिशन पहचानता है, और अनेक बाधाओं के बावजूद उसे पूरा करता है। उसे कई संदेहवादी मिलते हैं, लेकिन वह उन्हें नज़रअंदाज़ करने का चयन करता है। उसे कई दुष्ट कारकों से भी सामना करना पड़ता है। उसमें स्पष्ट दोष या कमजोरियाँ होती हैं, लेकिन अंततः वह इन समस्याओं पर काबू पा लेता है और अपना मिशन पूरा करता है। वह असंभव प्रतीत होने वाली चुनौतियों का सामना करता है, लेकिन सहयोगी बनाने का तरीका ढूंढता है और सीखता है कि सीमित और मूल्यवान संसाधनों का कैसे समझदारी से उपयोग किया जाए। यही कारण है कि दर्शक हीरो के पक्ष में आवाज़ उठाते हैं। यही DeepSeek को अनुयायी, वैश्विक सम्मान और प्रतिपक्षी प्रदान करता है।
जैसा कि मैं आगे विस्तार से स्पष्ट करूँगा, डीपसीक ने इस राह पर लंबे समय तक चला है और धीरे-धीरे अपनी अंतिम नियति को पहचाना है: इसका लक्ष्य प्रोग्रामिंग सदस्यता योजनाओं को बेचना नहीं, बल्कि 10 ट्रिलियन डॉलर के चीनी AI हार्डवेयर पारिस्थितिकी तंत्र को बढ़ावा देना और अपने आप को 1 ट्रिलियन डॉलर के मूल्यांकन के साथ प्राप्त करना है। इस प्रक्रिया में, यह पश्चिमी हार्डवेयर पारिस्थितिकी तंत्र में कई नए प्रवेशकर्ताओं के लिए अवसर भी पैदा करेगा।

कुछ दिलचस्प KV Cache गणनाओं से शुरू करें
कृपया @SemiAnalysis_ के इस हाल ही के ट्वीट को देखें:

DeepSeek ने इस समस्या को किसी से भी बेहतर तरीके से हल कर लिया है!
चलिए कुछ दिलचस्प KV Cache कैलकुलेशन करते हैं। चिंता मत कीजिए, अगर आपको गणित पसंद नहीं है। हम हाल ही में जारित KV Cache कैलकुलेटर का उपयोग करके देखेंगे कि DeepSeek V4 Pro कितनी KV Cache बचत लाता है, और इसे नवीनतम GLM और Qwen मॉडल्स के साथ तुलना करेंगे।
मैं यहाँ 10 लाख संदर्भ लंबाई के साथ गणना कर रहा हूँ, मान लीजिए KV सटीकता 8 बिट है और इंडेक्सर सटीकता 16 बिट है। आप इस कैलकुलेटर को खुद भी आजमा सकते हैं: https://kvcache.ai/tools/kv-cache-calculator/

आप अपने कैलकुलेटर को खुद भी खोलकर आजमा सकते हैं!
10 लाख संदर्भ लंबाई के साथ:
·DeepSeek V4 के लिए केवल 5.48GB HBM की आवश्यकता होती है;
·GLM-5 को 60GB HBM की आवश्यकता होती है;
·Qwen3-235B-A22B को अधिकतम 89GB HBM की आवश्यकता होती है।
ध्यान दें:
·DeepSeek एक 1.6 खरब पैरामीटर मॉडल है;
·GLM-5 लगभग 7000 अरब पैरामीटर है, और इसमें DeepSeek के MLA और DSA का उपयोग किया गया है, हालाँकि नवीनतम संपीड़ित ध्यान तंत्र का उपयोग अभी तक नहीं किया गया है;
·Qwen3-235B-A22B लगभग 2350 अरब पैरामीटर है, जिसमें GQA ध्यान तंत्र का उपयोग किया जाता है।
DeepSeek ने मेमोरी के दबाव को कम करने में मूलभूत योगदान दिया है। यदि इस तरह के नवीनीकरण का व्यापक रूप से उपयोग किया जाता है, तो लंबे समय तक चलने वाले Agent की संचालन लागत में भारी कमी आएगी और अगली लहर के नए अनुप्रयोगों को अनलॉक किया जा सकेगा।

100 लाख टोकन कंटेक्स्ट और मॉडल स्केल के लिए KV कैश का उपयोग तुलना
«फैंसी» के पीछे की विधि
KV कैश का आकार इतना छोटा कैसे हो सकता है, जबकि मॉडल की गुणवत्ता को प्रभावित नहीं किया जाता, यही कारण है कि DeepSeek लंबे समय तक कैश प्रदान करने के लिए अत्यंत कम कीमत पर उपलब्ध है—इसकी कीमत Sonnet 4.6 कैश हिट कीमत से 3% से भी कम है, और DeepSeek कैश को कई घंटों तक बरकरार रख सकता है।
对于长周期任务而言,较小的 KV 缓存意味着可以更经济地将其卸载到 SSD 并在需要时重新加载,从而减少对 HBM 的依赖。从中国 AI 硬件产业的角度来看,HBM 不仅供应紧张,也是最难制造的内存类型之一。
इसके अलावा, डीपसीक ने SSD से KV Cache को तेजी से लोड करने की तकनीक विकसित की है, जिसका वर्णन उसके ड्वल पाथ पेपर में किया गया है।

DeepSeek V4 के लिए KV Cache का संपीड़न बहुत बड़ा है, जिससे यह चरण अब आवश्यक भी नहीं रह सकता।
तो, KV कैश संपीड़न के सबसे सीधे लाभार्थी कौन हैं?
कौन बड़े पैमाने पर SSD की आपूर्ति कर रहा है? याद रखें, YMTC (चांगजियांग स्टोरेज) 3D NAND के क्षेत्र में एक विशालकाय बन रहा है। NAND, DeepSeek को KV की दोहरी गणना से बचने में मदद कर सकता है। विपरीत रूप से, DeepSeek NAND और SSD के लिए एक विशाल बाजार बना रहा है—जो न केवल चांगजियांग स्टोरेज को, बल्कि अन्य संबंधित निर्माताओं को भी लाभ पहुंचाएगा।

हालांकि, यह केवल NAND और SSD के बारे में ही नहीं है।
LPDDR मेमोरी में भी विशाल क्षमता है। इसे मॉडल वेट्स को स्टोर करने के लिए उपयोग किया जा सकता है और आवश्यकता पड़ने पर इन वेट्स को HBM में स्ट्रीम किया जा सकता है, जिससे HBM की मांग पर दबाव कम होता है। SGLang टीम ने इसके बारे में एक बहुत अच्छा ब्लॉग पोस्ट जारी किया था। नीचे का चित्र इस समाधान के कार्यप्रणाली को दर्शाता है।
हालांकि DeepSeek ने इस योजना के लिए कोई विशिष्ट डिज़ाइन नहीं किया है, लेकिन इसकी MoE आर्किटेक्चर, स्वयं में बहुत सारे एक्सपर्ट मॉडल का होना, और 4 बिट वजन की विशेषता इस योजना को लागू करने को आसान बनाती हैं।

यह चित्रण दर्शाता है कि मेमोरी का उपयोग कैसे किया जा सकता है और मॉडल वेट्स कैसे LPDDR से HBM में स्ट्रीम होते हैं। SGLang के ब्लॉग को पढ़ने की जोरदार सिफारिश की जाती है।
यदि यह नवीनता अत्यंत संकुचित और नुकसानरहित KV Cache के साथ एकीकृत की जाती है, तो HBM की मांग में काफी कमी आएगी।
तो, चीन में LPDDR कौन बना रहा है? उत्तर है CXMT, यानी ChangXin Memory Technologies। वे LPDDR की गति में केवल लगभग आधी पीढ़ी पीछे हैं, और घनत्व में एक पीढ़ी पीछे हैं, जो काफी कम अंतर है।
अतिरिक्त NAND के अलावा, चीन का AI इकोसिस्टम आगामी समय में पर्याप्त LPDDR आपूर्ति भी रखेगा। क्या यह कैलकुलेशन के दबाव को कम कर सकता है? उत्तर है: हाँ। आगे पढ़ें।

स्मृति का बुद्धिमानी से उपयोग करने से GPU / ASIC पर दबाव कम हो सकता है
NAND का उपयोग KV Cache को संग्रहित करने का उद्देश्य समझना आसान है: यह KV Cache को अधिक समय तक बनाए रखता है, HBM पर दबाव को कम करता है, और KV Cache की पुनर्गणना को रोककर GPU और ASIC की गणना भार को कम करता है।
तो, क्या LPDDR भी इसी तरह से कार्य कर सकता है? क्या यह केवल एक ऐसा स्टोरेज स्थान ही है जो 'ऑन-डिमांड इमीडिएटली' वेट्स को HBM में स्ट्रीम करता है, या यह कॉम्प्यूटेशनल लोड को और भी कम कर सकता है?
जवाब है: हाँ।
LPDDR का उपयोग Engram नामक बड़ी मात्रा में सामग्री को संग्रहित करने के लिए किया जा सकता है। DeepSeek के Engram पेपर में, उन्होंने बताया कि MoE, शर्तित गणना के माध्यम से मॉडल क्षमता को विस्तारित कर सकता है, लेकिन Transformer खुद में एक मूलभूत 'ज्ञान खोज' तंत्र की कमी है। इसलिए, Transformer को अक्सर खोज प्रक्रिया को कमजोर तरीके से गणना के माध्यम से अनुकरण करना पड़ता है।
इस समस्या को हल करने के लिए, DeepSeek ने Engram मॉड्यूल पेश किया। यह पारंपरिक N-gram एम्बेडिंग को आधुनिक बनाता है और इसे एक हैश-आधारित O(1) खोज तंत्र में बदल देता है, जिससे एक पूरक स्पार्सिफिकेशन पथ बनता है, जिसे वे सशर्त स्मृति (conditional memory) कहते हैं।
यह तरीका गणना को बचाता है, लेकिन इम्बेडिंग टेबल को संभालने के लिए मेमोरी की आवश्यकता होती है, और यह टेबल स्वयं बहुत विशाल हो सकती है।
वास्तव में, यह एक पारंपरिक "मेमोरी के लिए कैलकुलेशन" का समाधान है। लेकिन इसका मुख्य अवलोकन यह है: प्रति बिट डेटा पढ़ने की लागत के आधार पर, "मेमोरी" पक्ष काफी सस्ता है—एक LPDDR खोज, डेटा को कई स्तरों वाले Transformer से गुजारकर एक फॉरवर्ड पास करने की तुलना में कहीं अधिक सस्ती है। इसलिए, बड़े पैमाने पर, यह एक बहुत ही लाभदायक विनिमय है।
यही DeepSeek द्वारा कुछ मेमोरी के बलिदान के बदले कैलकुलेशन बचाने का तरीका है।

वह बदलाव जो करने योग्य है
चूंकि चीनी GPU और ASIC के पास समतुल्य स्तर की चिप ट्रांजिस्टर घनत्व नहीं है और न ही EUV है, इसलिए उनकी मूल FLOPs प्रदर्शन क्षमता में पश्चिमी GPU के साथ लंबे समय तक पिछड़ाव रह सकता है। उनके पास उन्नत पैकेजिंग में भी स्पष्ट अंतर है। इसलिए, यह विकल्प बहुत महत्वपूर्ण है, खासकर जब चीन NAND और LPDDR मेमोरी का बड़े पैमाने पर उत्पादन कर सकता है।
DeepSeek की दीर्घकालिक रणनीति का समीक्षा करें
इन नवीनताओं से लगता है कि DeepSeek का लक्ष्य अभी कुछ अरब डॉलर का लाभ कमाना नहीं है। इसके पिछले कई निर्णय इस बात की ओर संकेत करते हैं: अभी तक कोई मल्टीमॉडल, कोई वॉइस मॉडल नहीं, और वीडियो मॉडल की बात तो नहीं हो सकती।
वह वास्तव में एक ऐसे लंबे समय तक चलने वाले खेल में शामिल है, जिसमें धैर्य और संभावित रूप से 10 ट्रिलियन डॉलर का पैमाना शामिल है: एक वैकल्पिक AI हार्डवेयर पारिस्थिति का निर्माण करना।
यह केवल चीनी मेमोरी निर्माताओं को चीन और वैश्विक AI हार्डवेयर बाजार में महत्वपूर्ण खिलाड़ी बनाने के लिए ही नहीं, बल्कि संसाधनों की मांग को मूलभूत रूप से कम करके AI मॉडल के प्रशिक्षण और सेवा को अधिक लागत-कुशल बनाने के लिए भी है। इससे कई GPU, ASIC निर्माता और नेटवर्क चिप निर्माताओं को व्यवहार्य विकल्प बनने का अवसर मिलता है।
इसी समय, ये नवाचार पश्चिमी ओपन सोर्स इकोसिस्टम और नई पीढ़ी के हार्डवेयर निर्माताओं को भी लाभ पहुंचाएंगे।
सभी संकेत पहले से ही मौजूद थे। आइए अब तक डीपसीक द्वारा प्रस्तुत इन नवाचारों का विस्तार से समीक्षा करें:
1. DeepSeek V2 में पेश किए गए मिक्स्चर ऑफ एक्सपर्ट्स मॉडल (MoE) और MLA
DeepSeek ने V2 में MoE और MLA शामिल किए। MoE ने उच्च बुद्धिमत्ता वाले मॉडल के प्रशिक्षण के लिए आवश्यक गणना को लगभग 40% से 50% तक कम कर दिया; MLA ने KV Cache को 90% तक कम कर दिया।
इससे KV Cache को SSD पर अनलोड करना काफी कुशल हो जाता है।
ये विचार सबसे पहले 2024 के मई में DeepSeek द्वारा प्रकाशित DeepSeek V2 पेपर में दिखाई दिए। बाद में, ये DeepSeek V3 के प्रशिक्षण के लिए आधार बने। उस समय, DeepSeek ने केवल 2048 अपर्याप्त क्षमता वाली H800 GPU का उपयोग करके एक ऐसा सिस्टम तैयार किया जो बंद स्रोत मॉडल के स्तर के बराबर प्रदर्शन करता था।

2. DSA: DeepSeek V3.2 Exp में लंबे संदर्भ परिदृश्यों में गणना लागत को कम करने और HBM बैंडविड्थ के दबाव को कम करने के लिए पेश किया गया।
DSA की मुख्य भूमिका यह सुनिश्चित करना है कि गणना की मात्रा आधारभूत लंबाई के बढ़ने के साथ लगातार न बढ़े। नीचे के चार्ट को देखें: आधारभूत लंबाई बढ़ने के साथ, DeepSeek-V3.2 का संसाधन समय लगभग स्थिर रहता है।

3. mHC: DeepSeek ने 2025 के दिसंबर में पेपर «mHC: Manifold-Constrained Hyper-Connections» में प्रस्तुत किया।
mHC एक नवीनता है जो DeepSeek द्वारा मैक्रो आर्किटेक्चर स्तर पर की गई है, जो Transformer परतों के बीच सूचना प्रवाह को पुनः डिज़ाइन करती है।
पिछले समय से, ResNet के बाद, मॉडल आमतौर पर मानक शेष संयोजन, यानी x + F(x), का उपयोग करते थे। mHC का दृष्टिकोण, शेष प्रवाह को कई समानांतर सूचना चैनल में विस्तारित करना है, और मॉडल को इन चैनलों के बीच एक सीखने योग्य मिश्रण की अनुमति देता है। मुख्य बात यह है कि यह मिश्रण मैट्रिक्स को डबल स्टोकेस्टिक मैट्रिक्स के रूप में सीमित करता है, यानी इसे Sinkhorn-Knopp प्रक्षेप के माध्यम से Birkhoff बहुफलक पर सीमित करता है। इस प्रकार, गणितीय रूप से यह सुनिश्चित होता है कि चाहे मॉडल कितना भी गहरा हो, संकेत का आयाम स्थिर रहता है।
यह पहले अनियंत्रित हाइपर-कनेक्शन्स के सामने आने वाली विनाशकारी अस्थिरता को हल करता है। हाइपर-कनेक्शन्स को मूल रूप से बाइटडांस द्वारा प्रस्तावित किया गया था, लेकिन बिना किसी प्रतिबंध के, सिग्नल गेन 270 अरब पैरामीटर स्केल पर 3000 गुना तक बढ़ जाता है, जिससे प्रशिक्षण पूरी तरह से विफल हो जाता है।
mHC की गणना लागत बहुत कम है: यह केवल लगभग 6.7% का वास्तविक प्रशिक्षण समय ओवरहेड लाता है, क्योंकि यह ध्यान स्तर या FFN स्तर के FLOPs को नहीं बदलता, बल्कि इन स्तरों के आउटपुट के स्तर-बाहर रूटिंग को बदलता है।
लेकिन इससे प्रदर्शन में काफी स्पष्ट सुधार हुआ है: 270 अरब पैरामीटर स्केल पर, mHC ने BIG-Bench Hard निष्कर्ष लेने के कार्यों में 7.2 अंक, DROP में 3.2 अंक, GSM8K गणित कार्यों में 2.8 अंक, और MMLU सामान्य ज्ञान कार्यों में 1.4 अंक का सुधार किया। और ये सभी सुधार समान मॉडल स्केल और लगभग समान कैलकुलेशन बजट के साथ प्राप्त किए गए हैं।
मूलतः, mHC लगभग अतिरिक्त FLOPs के बिना, एक अधिक समृद्ध और अधिक व्यक्तिपूर्ण क्रॉस-लेयर जानकारी रूटिंग टोपोलॉजी प्रदान करके अधिक इकाई पैरामीटर बुद्धिमत्ता प्राप्त करता है।

mHC एक जटिल आर्किटेक्चर डिज़ाइन है, लेकिन यह अधिक स्थिर प्रशिक्षण प्रक्रिया और अधिक इकाई पैरामीटर बुद्धिमत्ता प्रदान कर सकता है।
4, CSA, HSA: DeepSeek ने अप्रैल 2026 में V4 में पेश किया।
CSA और HSA का लक्ष्य, KV Token को संपीड़ित करके KV Cache की आवश्यकता को और 90% तक कम करना है, जिससे आवश्यक FLOPs में भी भारी कमी आए और HBM तथा GPU / ASIC दोनों पर दबाव कम हो।

5. Engram: DeepSeek ने 2026 की पहली तिमाही में इसे पेश किया, जो मूल रूप से कुछ हद तक गणना की दक्षता के लिए मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।
जैसा कि नीचे विस्तृत चार्ट में दिखाया गया है, समान कुल पैरामीटर बजट के साथ, एनग्राम ने स्पष्ट प्रदर्शन में सुधार लाया है।

6. Engram: DeepSeek ने 2026 की पहली तिमाही में इसे पेश किया, जो मूल रूप से कैलकुलेशन दक्षता के लिए कुछ हद तक मेमोरी, यानी LPDDR मेमोरी, का आदान-प्रदान करता है।
जैसा कि नीचे विस्तृत चार्ट में दिखाया गया है, समान कुल पैरामीटर बजट के साथ, एनग्राम ने स्पष्ट प्रदर्शन में सुधार लाया है।

यह DeepSeek द्वारा V4 पेपर में हार्डवेयर निर्माताओं को दी गई सलाह है। मुझे पूरा विश्वास है कि ऑफलाइन बातचीत में उनकी प्रतिक्रिया और भी अधिक होगी।
7. टाइललैंग में निवेश भी एक ही दिशा की ओर इशारा करता है: डीपसीक केवल अपनी कैलकुलेशन सीमा को हल करने में नहीं, बल्कि चीनी हार्डवेयर इकोसिस्टम को पश्चिमी इकोसिस्टम के साथ प्रतिस्पर्धा करने की क्षमता प्रदान करने में सहायता कर रहा है।
TileLang के साथ, डेवलपर्स केवल एक बार kernel — अर्थात् गणना के लिए निचले स्तर का कोड — लिख सकते हैं, और फिर इसे उन अनेक हार्डवेयर प्लेटफॉर्म पर सफलतापूर्वक चला सकते हैं जिनके लिए TileLang बैकएंड समर्थित है।
मुझे उम्मीद है कि अन्य चीनी AI प्रयोगशालाएँ भी क्रमिक रूप से इसमें शामिल होंगी। इससे चीनी हार्डवेयर निर्माताओं को ऐसे 'CUDA मोहरा' का सामना करने में अप्रत्यक्ष रूप से मदद मिलेगी। इसके साथ ही, AMD जैसे पश्चिमी हार्डवेयर की क्षमता भी अधिक निकाली जा सकेगी।
ध्यान दें कि चीन के कई AI हार्डवेयर प्लेटफॉर्म पहले से ही CUDA संगतता या CUDA ट्रांसलेशन लेयर प्रदान करते हैं। उदाहरण के लिए, मोएर टेक्नोलॉजीज, मूक्सी, बिरेन और टियानशु ज्ञान केंद्र, CUDA के उच्च स्तर की संगतता प्राप्त करने के लिए ट्रांसलेशन लेयर का उपयोग करने वाले चीनी चिप निर्माता हैं। इसलिए सिद्धांत रूप से, उन्हें TileLang की आवश्यकता नहीं है।

大规模强化学习 और RSI
जब DeepSeek को अधिक कैलकुलेशन स्रोत, यानी अधिक हार्डवेयर विकल्प मिलेंगे और मॉडल की खुद की कैलकुलेशन संसाधनों की आवश्यकता कम होगी, तो यह अधिक दांव भरे प्रशिक्षण प्रोजेक्ट्स, विशेष रूप से रीइनफोर्समेंट लर्निंग आधारित पोस्ट-ट्रेनिंग को आगे बढ़ा पाएगा।
रीइन्फोर्समेंट लर्निंग को बहुत सारी ट्रैजेक्टरीज़ बनाने की आवश्यकता होती है, जिसका अर्थ है ट्रिलियन्स टोकन उत्पन्न करना। यह प्रक्रिया जल्द ही अत्यधिक महंगी हो जाती है। इसके अलावा, यदि 100 लाख कॉन्टेक्स्ट लंबाई का मॉडल ट्रेन करना है, तो उसी लंबाई की ट्रैजेक्टरीज़ को उत्पन्न करना होगा। केवल इस प्रकार की अत्यधिक लंबी ट्रैजेक्टरीज़ पर मॉडल को ट्रेन करके ही लंबे समय तक चलने वाले कार्यों का समर्थन किया जा सकता है।
इसके अलावा, हार्डवेयर विकल्पों में वृद्धि के कारण, डीपसीक द्वारा उपलब्ध हार्डवेयर संसाधन भी अधिक होंगे, जिससे स्वचालित अनुसंधान, यानी RSI को बढ़ावा मिलेगा। RSI का अर्थ है AI द्वारा स्वयं प्रयोगों की डिज़ाइन और निष्पादन। इस विधि में बहुत सारी प्रयास-त्रुटि शामिल होगी और लागत तेजी से बढ़ जाएगी। लेकिन पूरे मॉडल डिज़ाइन स्पेस की खोज के लिए RSI अत्यंत महत्वपूर्ण है। AGI की ओर बढ़ने से पहले, और उसके बाद ASI की ओर बढ़ने से पहले, डीपसीक को RSI क्षमता होनी चाहिए।
DeepSeek आज जो कर रहा है, पूरा उद्योग कल उसका अनुसरण करेगा
DeepSeek के विशेषज्ञ मिश्रित मॉडल, MLA, DSA आदि क्षेत्रों में नवीनता को विश्व और चीन के अन्य AI प्रयोगशालाओं द्वारा क्रमिक रूप से अपनाया गया है।
उदाहरण के लिए, GLM श्रृंखला मॉडल के विकासक ZAI ने MLA और DSA का उपयोग किया है। किमी, जो मूनशॉट है, ने भी MLA को अपनाया है और खुलकर घोषणा की है कि इसकी आर्किटेक्चर DeepSeek आर्किटेक्चर पर आधारित है। विपरीत रूप से, DeepSeek ने Muon ऑप्टिमाइज़र का उपयोग किया है, जबकि Muon सबसे पहले किमी (मूनशॉट) द्वारा बड़े पैमाने पर प्रशिक्षण में अपनाया गया था।
ध्यान दें:
MoE को सबसे पहले 2017 में Google द्वारा प्रस्तुत किया गया था, जिसके मुख्य लेखक Noam Shazeer थे। DeepSeek का योगदान MoE के विशाल पैमाने पर अनुप्रयोग और अपनी स्वयं की संबंधित तकनीकों के आविष्कार में है।
Muon, जो Newton-Schulz ऑप्टिमाइज़र द्वारा MomentUm Orthogonalized है, 2024 के अंत में मशीन लर्निंग शोधकर्ता Keller Jordan द्वारा प्रस्तावित किया गया था। Kimi (Moonshot) टीम पहली टीम थी जिसने इसे बड़े पैमाने पर प्रशिक्षण के लिए उपयोग किया।
पैसा कमाने की समस्या क्या होगी?
हम ओपनएआई के इस दिलचस्प उदाहरण को देख सकते हैं।
OpenAI को AMD और Cerebras के स्टॉक खरीदने के लिए कम कीमत पर वैल्यूएशन वॉरंट्स / ऑप्शन्स मिले हैं, जो उनकी कैलकुलेशन उपभोग की मील के पत्थर से जुड़े हुए हैं। AMD और Cerebras के लिए यह एक बहुत फायदेमंद लेनदेन है। क्योंकि जब OpenAI उनके हार्डवेयर का उपयोग करने का वादा करता है, तो उनकी दीर्घकालिक सफलता की संभावना बहुत बढ़ जाती है।
AMD के घोषणा पत्र में ऐसा एक अनुच्छेद है:
समझौते के एक हिस्से के रूप में, दोनों पक्षों के रणनीतिक हितों को और अधिक समन्वित करने के लिए, AMD ने OpenAI को अधिकतम 160 मिलियन AMD सामान्य शेयर खरीदने के अधिकार वाले वॉरंट जारी किए हैं, जो विशिष्ट मील के पत्थर पूरे होने पर क्रमिक रूप से प्राप्त होंगे। पहला बैच प्रारंभिक 1 गीगावॉट तकनीक स्थापित करने पर प्राप्त होगा, और बाद के बैच 6 गीगावॉट तक खरीदारी के विस्तार के साथ-साथ प्राप्त होंगे। प्राप्ति की शर्तें AMD के निर्धारित स्टॉक मूल्य लक्ष्य प्राप्त करने और OpenAI द्वारा AMD के बड़े पैमाने पर स्थापना के लिए आवश्यक तकनीकी और व्यावसायिक मील के पत्थर पूरे करने से भी जुड़ी हुई हैं।

मुझे उम्मीद है कि डीपसीक भी चीनी मेमोरी, ASIC, CPU और नेटवर्क टेक्नोलॉजी स्टैक निर्माताओं के साथ समान समझौतों पर हस्ताक्षर करेगा और इन निर्माताओं के हार्डवेयर स्टैक को अग्रणी AI कार्यभार के लिए उपयुक्त बनाने के लिए गहराई से सहयोग करेगा।
考虑到包括东亚盟友在内的所有西方国家的 AI 股票总市值已远超 10 万亿美元,这种“通过合作获得股权回报”的方式,将使 DeepSeek 有机会帮助中国打造一个同样庞大的产业,并在其中分得自己的一份,最终实现自身 1 万亿美元的估值。
यह न केवल डीपसीक को पारंपरिक एप्लिकेशन सब्सक्रिप्शन बिजनेस से बहुत अधिक पैसा कमाने की अनुमति देगा, बल्कि उसका दावा किया गया लक्ष्य “AGI को हर किसी तक पहुंचाना” भी पूरा करेगा। लियांग वेनफेंग जिम साइमन्स के एक श्रद्धालु प्रशंसक हैं और पर्याप्त बुद्धिमान पूंजीपति हैं, वे इस बात को नहीं छोड़ सकते।
अगर आप दीपसीक द्वारा अब तक किए गए सभी कार्यों को वापस देखें, तो इसकी एक ही व्याख्या सबसे अच्छी तरह से समझ में आती है।

ये प्रमुख AI स्टॉक हैं। चित्र में हाइपरस्केलर्स, अर्थात् अत्यधिक स्केलेबल क्लाउड फर्म, और कई अन्य संबंधित कंपनियाँ शामिल नहीं हैं।
Original link
