AI कंप्यूट सप्लाई चेन की बॉटलनेक्स GPU से बिजली और ठंडा करने पर स्थानांतरित हो गईं

icon MarsBit
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
भय और लालच सूचकांक दर्शाता है कि AI कंप्यूटिंग बॉटलनेक्स अब बिजली, चिप्स, स्टोरेज, उपकरण और सामग्री तक फैल गए हैं। हाई-बैंडविड्थ मेमोरी और ऑप्टिकल इंटरकनेक्ट्स की कमी है, जबकि बिजली/ठंडा करने के बुनियादी ढांचे में पिछड़ाव है। प्रमुख बैंक ग्रिड और निर्माण में तनाव की चेतावनी दे रहे हैं। अल्टकॉइन्स जिन्हें देखना है, वे बुनियादी ढांचे की लागत बढ़ने के साथ प्रतिक्रिया दे सकते हैं। यह बदलाव GPU → HBM → ऑप्टिकल → बिजली/ठंडा करने के क्रम का पालन करता है।

लेखक: qinbafrank

फरवरी में, "इस पूंजी खर्च के युद्ध का क्या अर्थ है?" में हमने बात की थी कि कैपेकिटी सप्लाई चेन के महत्वपूर्ण चरणों—जैसे चिप, पैकेजिंग और टेस्टिंग, स्टोरेज, ऑप्टिकल मॉड्यूल—अभी भी सबसे अधिक मूल्य को प्राप्त कर रहे हैं; जिन क्षमताओं का त्वरित विस्तार नहीं हो सकता, और जिनके पास अत्यधिक सुरक्षा है, वे विशाल पूंजी खर्च के लाभ का आनंद लेंगे;

अभी भी काफी दक्षता सुधार का स्थान है: इन्फरेंस एंड पर डिस्टिलेशन, क्वांटाइजेशन, MoE, विशेष-उद्देश्य चिप्स, लिक्विड कूलिंग, फ्यूजन (दीर्घकालिक) जैसी तकनीकें इकाई कैलकुलेशन की ऊर्जा और लागत को 10–100 गुना तक कम कर सकती हैं। इन चरणों में अवसर ढूंढें।

हाल ही में, मॉरगन स्टैनले, जीपी मॉर्गन, बैंक ऑफ अमेरिका, गोल्डमैन सैक्स, UBS, सिटीग्रुप, बर्नस्टीन और HSBC जैसे कई निवेश बैंकों ने AI/सेमीकंडक्टर/बिजली/स्टोरेज से संबंधित अपडेट रिपोर्ट जारी की हैं, और AI हार्डवेयर की बाधा अब केवल "GPU आपूर्ति" के एकल पहलू से बढ़कर बिजली, चिप, स्टोरेज, उपकरण और सामग्री के पांच पहलुओं में सामूहिक तनाव में बदल गई है।

AI की मांग का स्तर पारंपरिक बिजली योजनाबद्धता, अर्धचालक उपकरण क्षमता, स्टोरेज मूल्य मॉडल और रोबोट स्थापना की मान्यताओं के सभी अनुमानित अंतराल को पार कर चुका है।

मॉरगन स्टैनले की ग्लोबल थीम रिसर्च रिव्यू में बताया गया है कि वैश्विक सप्ताहिक भाषा मॉडल टोकन खपत 3 महीनों में 6.4 ट्रिलियन से बढ़कर 22.7 ट्रिलियन हो गई, जिसमें 2.5 गुना की वृद्धि हुई; अमेरिका में 2025-28 के बीच डेटासेंटर बिजली की कमी 55 गीगावाट है; जे.पी. मॉर्गन के डेटासेंटर हाई-परफॉर्मेंस कंप्यूटिंग प्रोजेक्ट बॉन्ड्स के पहले कवरेज में सीधे "अगले 5 वर्षों में 122 गीगावाट की फंडिंग की आवश्यकता" का अनुमान लगाया गया है, अमेरिका में 5 वर्षीय बिजली योजना 101 गीगावाट से बढ़कर 230 गीगावाट हो गई है, और 44% नए प्रोजेक्ट्स के ग्रिड में जुड़ने में 4 साल से अधिक का समय लगता है; मैरिलिन की एल्फाबेट के लिए नवीनतम लक्ष्य मूल्य रिपोर्ट में, 2026 के लिए पूंजीव्यय को सीधे 1815 अरब डॉलर पर समायोजित किया गया है, जो पिछले साल के मुकाबले दोगुना है, और स्वतंत्र प्रवाह प्रवाह में 62% की कमी हुई है। ये तीनों संख्याएँ एक ही संदर्भ के परिणाम नहीं हैं, बल्कि तीन स्वतंत्र संस्थानों द्वारा अलग-अलग अनुसंधान पथों पर स्वतंत्र रूप से प्रस्तुत किए गए हैं।

सेमीकंडक्टर श्रृंखला (विशेष रूप से AI कैलकुलेशन क्षेत्र) की बाधाओं का विकास, "कैलकुलेशन (GPU) → स्टोरेज (HBM आदि) → ऑप्टिकल इंटरकनेक्शन → बिजली/तरल शीतलन" इस स्पष्ट क्रम में आगे बढ़ रहा है। यह 2025-2026 का उद्योग सहमति है, जब AI ट्रेनिंग/इन्फरेंस क्लस्टर्स एकल कैबिनेट (कुछ दर्जन GPU) से अत्यधिक पैमाने पर (हजारों से लेकर दस लाख GPU तक) विस्तारित होते हैं, तो प्रत्येक बाधा को हल करने के बाद, अगली भौतिक/आपूर्ति श्रृंखला सीमा तुरंत सामने आ जाती है, जो "लियोन्टीफ़-प्रकार" की पूरक प्रतिबंधों को बनाती है (एक भी कमी होने पर उत्पाद निकास नहीं हो सकता)।

ऑप्टिकल मॉड्यूल

इस विकास के कारण, वर्तमान स्थिति और पीछे के भौतिक/इंजीनियरिंग कारणों को समझना आवश्यक है:

1. प्रारंभिक चरण की सीमा: GPU गणना (2022-2024 का प्रमुख) मुख्य सीमा:

उच्च श्रेणी के GPU (जैसे NVIDIA Hopper H100 → Blackwell B200 → Rubin) की अपनी वेफर उत्पादन क्षमता + उन्नत पैकेजिंग।

बॉटलनेक क्यों: AI बड़े मॉडल को विशाल समानांतर कंप्यूटिंग की आवश्यकता होती है, जिससे TSMC के 4nm/3nm/2nm लॉजिक प्रक्रिया + CoWoS (2.5D/3D पैकेजिंग) की क्षमता एक बड़ी सीमा बन गई। भले ही फ्रंट-एंड वेफर पर्याप्त हों, लेकिन बैक-एंड में लॉजिक चिप + HBM को स्टैक करके पैकेज करने की क्षमता पीछे रह गई, जिससे पूरा GPU उत्पादित नहीं हो पा रहा है।

स्थिति में राहत: TSMC ने CoWoS की क्षमता में भारी वृद्धि की है (2024-2025 में क्षमता दोगुनी), NVIDIA Blackwell का बड़े पैमाने पर वितरण हो चुका है। लेकिन यह केवल "कंप्यूटिंग" चरण को अनलॉक करता है, जिसके तुरंत बाद नए समस्याएँ सामने आती हैं।

2. दूसरा चरण का बंधन: स्टोरेज (HBM हाई बैंडविड्थ मेमोरी, 2024-2025 में सबसे अधिक कमी वाला)

मुख्य प्रतिबंध: HBM3/HBM3e/HBM4 की उत्पादन क्षमता।

क्यों रिले बॉटलनेक बन गया: GPU की कैलकुलेशन क्षमता बढ़ी, लेकिन मॉडल पैरामीटर्स विस्फोटक रूप से बढ़ गए (ट्रिलियन या दस ट्रिलियन पैरामीटर्स), डेटा हस्तांतरण (मेमोरी बैंडविड्थ) "मेमोरी वॉल" बन गया। HBM प्रति सेकंड कई TB डेटा ट्रांसफर कर सकता है, जो सामान्य DDR मेमोरी से 20 गुना अधिक तेज़ है। चूंकि HBM लॉजिक चिप के बहुत करीब होता है, इसलिए डेटा को दूर तक ट्रांसमिट करने की आवश्यकता नहीं होती, जिससे ऊर्जा बचत होती है।

एक B200 GPU को 192GB+ HBM3e की आवश्यकता होती है, जिससे एक सिंगल कैबिनेट (NVL72) में HBM की कुल मात्रा 30-40TB तक पहुँच जाती है, और बैंडविड्थ की आवश्यकता पारंपरिक DRAM से कहीं अधिक है।

सप्लाई चेन की वर्तमान स्थिति: केवल SK हाइलेक्स, सैमसंग और माइक्रॉन ही HBM का बड़े पैमाने पर उत्पादन कर सकते हैं, जिसकी प्रक्रिया जटिल है (सिलिकॉन थ्रू-सिलिकॉन वियो, TSV + स्टैकिंग), 2025 में सभी उत्पाद बिक चुके हैं, 2026 में भी आपूर्ति मांग से कम होगी, और कीमतें पिछले वर्ष की तुलना में 246% बढ़ गई हैं। यहां तक कि अगर GPU चिप तैयार हो जाए, तो HBM के बिना इसे असेंबल या डिलीवर नहीं किया जा सकता, जिससे पूरे AI क्लस्टर डिप्लॉयमेंट में देरी होती है।

परिणाम: स्टोरेज को "उत्पाद" से रणनीतिक स्तर की बाधा बना दिया गया है, जिसमें पूंजी खर्च का 30% तक स्टोरेज पर खर्च हो सकता है।

3. तीसरा चरण का बंधन: प्रकाशिकी संयोजन (2025-2026 में स्विच हो रहा है)

मुख्य सीमाएँ: कॉपर केबल (NVLink/NVSwitch) की बैंडविड्थ, दूरी, बिजली खपत और भार पर भौतिक सीमाएँ।

प्रकाश की ओर जाना क्यों अनिवार्य है: एकल कैबिनेट (72 GPU) में तांबे के केबल का उपयोग संभव है, लेकिन जब इसे कई कैबिनेट तक, या हजारों GPU के बीच जोड़ने की आवश्यकता होती है, तो तांबे के केबल में भारी क्षय होता है (1.8 TB/s बैंडविड्थ पर प्रभावी दूरी <1 मीटर), भार विस्फोटक हो जाता है (NVL72 कैबिनेट में तांबे के केबल 5,000 से अधिक, कुल वजन 1.36 टन), और उच्च बिजली खपत (हटाने योग्य प्रकाश मॉड्यूल से तांबे के केबल को बदलने पर 20,000 वाट अतिरिक्त खपत होती है)। संकेत अखंडता, देरी, और तापमान नियंत्रण बड़े क्लस्टर के लिए समर्थन नहीं कर सकते।

समाधान: प्रकाशिक इंटरकनेक्ट (CPO सह-पैकेज्ड ऑप्टिक्स + सिलिकॉन फोटोनिक्स) पर स्विच करें। प्रकाश इंजन को GPU/ASIC के ठीक बगल में पैकेज करें, और स्केल-आउट के लिए ऑप्टिकल फाइबर का उपयोग करें, जिससे बैंडविड्थ घनत्व अधिक, प्रति बिट उपभोग कम और दूरी अधिक होगी।

ऑप्टिकल मॉड्यूल

NVIDIA ने 2026 के GTC पर भारी निवेश किया है, ऑप्टिकल कंपनियों में निवेश किया है, और 800G/1.6T ऑप्टिकल मॉड्यूल की मांग में विस्फोटक वृद्धि हुई है। lite, Broadcom, Coherent, Ayar Labs जैसी कंपनियाँ नए विजेता बन गई हैं।

वर्तमान प्रगति: कॉपर केबल सीमा तक पहुंच चुका है, ऑप्टिकल इंटरकनेक्ट अब "वैकल्पिक" से "अनिवार्य" बन रहा है और AI डेटासेंटर के प्रदर्शन की सीमा को तोड़ रहा है।

4. चौथा चरण की बाधा (वर्तमान में सबसे अग्रणी): बिजली + तरल शीतलन (2026 से अंतिम भौतिक सीमा बन जाएगी) मुख्य प्रतिबंध: शक्ति दीवार + ताप निकास दीवार + विद्युत नेटवर्क से कनेक्शन।

क्यों यह अंतिम बाधा है: प्रत्येक GPU 300W से 700-1200W तक, एकल कैबिनेट 10-20kW (CPU युग) से बढ़कर 120-200kW+ या उससे अधिक हो गया है। पारंपरिक एयर कूलिंग की भौतिक सीमा केवल 20-50kW है, शोर, हवा की मात्रा और ऊर्जा खपत सभी अस्वीकार्य हैं।

पावर साइड: डेटा सेंटर को GW स्तर की बिजली की आवश्यकता होती है, ग्रिड कनेक्शन के लिए कतार में लंबे समय तक इंतजार करना पड़ सकता है, और ट्रांसफॉर्मर, सॉलिड स्टेट ट्रांसफॉर्मर आदि उपकरणों की डिलीवरी अवधि 100 सप्ताह तक बढ़ गई है। माइक्रोसॉफ्ट के सीईओ ने सीधे कहा था, "GPU हैं, लेकिन प्लग करने के लिए बिजली नहीं है।"

लिक्विड कूलिंग साइड: डायरेक्ट-टू-चिप (सीधा चिप लिक्विड कूलिंग) या इमर्शन लिक्विड कूलिंग में स्विच करना आवश्यक है, जिसमें माइक्रोफ्लुइडिक, कूलिंग प्लेट आदि तकनीकों को शामिल किया जाए। टीएसएमसी ने CoWoS प्लेटफॉर्म पर सिलिकॉन-आधारित लिक्विड कूलिंग का प्रदर्शन किया है, जो >2.6kW TDP का समर्थन करती है। वर्टिव (VRT) जैसे लिक्विड कूलिंग/थर्मल मैनेजमेंट फर्म अब बुनियादी ढांचे का नया केंद्र बन गए हैं।

श्रृंखला प्रतिक्रिया: PUE (बिजली उपयोग कुशलता) की आवश्यकता <1.2, अतिरिक्त ऊष्मा पुनर्प्राप्ति, परमाणु ऊर्जा/नवीन ऊर्जा का ग्रिड में एकीकरण सभी नए विषय बन गए हैं। भले ही पिछले सभी चरणों को हल कर लिया गया हो, बिना बिजली और ठंडक के, कैबिनेट स्थापित और संचालित नहीं किए जा सकते।

ऑप्टिकल मॉड्यूल

AI कैलकुलेशन सप्लाई चेन की बैरियर के स्थानांतरण की मूल तर्कशक्ति: AI कैलकुलेशन एक "एकल बिंदु" समस्या नहीं है, बल्कि एक सिस्टम-लेवल लियोन्टिफ़ उत्पादन फ़ंक्शन है—GPU, HBM, इंटरकनेक्ट, बिजली, शीतलन को न्यूनतम दुर्बलता के अनुसार मैच किया जाना चाहिए। hyperscaler (गूगल, माइक्रोसॉफ्ट, मेटा आदि) प्रत्येक समस्या को हल करने के बाद तुरंत पूंजी और नवाचार को अगले चरण की ओर धकेल देते हैं।

वर्तमान में (2026 में), "ऑप्टिकल इंटरकनेक्शन का त्वरित अपनाया जाना + बिजली/तरल शीतलन का व्यापक वाणिज्यिक उपयोग" के संक्रमण काल में है, भविष्य में नए बैरियर्स (जैसे लेजर, ऑप्टिकल फाइबर सामग्री या ग्रिड ट्रांसफॉर्मर) भी उभर सकते हैं, लेकिन "कॉम्प्यूटिंग → स्टोरेज → ऑप्टिकल → बिजली/शीतलन" श्रृंखला अब उद्योग के द्वारा मान्य पथ के रूप में स्वीकार की गई है।

इससे यह भी स्पष्ट होता है कि निवेश तर्क NVIDIA/TSMC से HBM ट्रायड (SK हाइलेस आदि), ऑप्टिकल फर्म (Lumentum, Coherent), लिक्विड कूलिंग/बिजली बुनियादी ढांचे (Vertiv, संबंधित पावर कंपनियाँ) की ओर बदल गया है।

हर बैंकनिंग स्थानांतरण, सेमीकंडक्टर और डेटा सेंटर श्रृंखला के मूल्य वितरण को पुनर्गठित करता है।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।