AI कंप्यूट सप्लाई चेन की बॉटलनेक्स GPU से बिजली और ठंडा करने पर स्थानांतरित हो गईं

लेखक: qinbafrank

फरवरी में, "इस पूंजी खर्च के युद्ध का क्या अर्थ है?" में हमने बात की थी कि कैपेकिटी सप्लाई चेन के महत्वपूर्ण चरणों—जैसे चिप, पैकेजिंग और टेस्टिंग, स्टोरेज, ऑप्टिकल मॉड्यूल—अभी भी सबसे अधिक मूल्य को प्राप्त कर रहे हैं; जिन क्षमताओं का त्वरित विस्तार नहीं हो सकता, और जिनके पास अत्यधिक सुरक्षा है, वे विशाल पूंजी खर्च के लाभ का आनंद लेंगे;

अभी भी काफी दक्षता सुधार का स्थान है: इन्फरेंस एंड पर डिस्टिलेशन, क्वांटाइजेशन, MoE, विशेष-उद्देश्य चिप्स, लिक्विड कूलिंग, फ्यूजन (दीर्घकालिक) जैसी तकनीकें इकाई कैलकुलेशन की ऊर्जा और लागत को 10–100 गुना तक कम कर सकती हैं। इन चरणों में अवसर ढूंढें।

हाल ही में, मॉरगन स्टैनले, जीपी मॉर्गन, बैंक ऑफ अमेरिका, गोल्डमैन सैक्स, UBS, सिटीग्रुप, बर्नस्टीन और HSBC जैसे कई निवेश बैंकों ने AI/सेमीकंडक्टर/बिजली/स्टोरेज से संबंधित अपडेट रिपोर्ट जारी की हैं, और AI हार्डवेयर की बाधा अब केवल "GPU आपूर्ति" के एकल पहलू से बढ़कर बिजली, चिप, स्टोरेज, उपकरण और सामग्री के पांच पहलुओं में सामूहिक तनाव में बदल गई है।

AI की मांग का स्तर पारंपरिक बिजली योजनाबद्धता, अर्धचालक उपकरण क्षमता, स्टोरेज मूल्य मॉडल और रोबोट स्थापना की मान्यताओं के सभी अनुमानित अंतराल को पार कर चुका है।

मॉरगन स्टैनले की ग्लोबल थीम रिसर्च रिव्यू में बताया गया है कि वैश्विक सप्ताहिक भाषा मॉडल टोकन खपत 3 महीनों में 6.4 ट्रिलियन से बढ़कर 22.7 ट्रिलियन हो गई, जिसमें 2.5 गुना की वृद्धि हुई; अमेरिका में 2025-28 के बीच डेटासेंटर बिजली की कमी 55 गीगावाट है; जे.पी. मॉर्गन के डेटासेंटर हाई-परफॉर्मेंस कंप्यूटिंग प्रोजेक्ट बॉन्ड्स के पहले कवरेज में सीधे "अगले 5 वर्षों में 122 गीगावाट की फंडिंग की आवश्यकता" का अनुमान लगाया गया है, अमेरिका में 5 वर्षीय बिजली योजना 101 गीगावाट से बढ़कर 230 गीगावाट हो गई है, और 44% नए प्रोजेक्ट्स के ग्रिड में जुड़ने में 4 साल से अधिक का समय लगता है; मैरिलिन की एल्फाबेट के लिए नवीनतम लक्ष्य मूल्य रिपोर्ट में, 2026 के लिए पूंजीव्यय को सीधे 1815 अरब डॉलर पर समायोजित किया गया है, जो पिछले साल के मुकाबले दोगुना है, और स्वतंत्र प्रवाह प्रवाह में 62% की कमी हुई है। ये तीनों संख्याएँ एक ही संदर्भ के परिणाम नहीं हैं, बल्कि तीन स्वतंत्र संस्थानों द्वारा अलग-अलग अनुसंधान पथों पर स्वतंत्र रूप से प्रस्तुत किए गए हैं।

सेमीकंडक्टर श्रृंखला (विशेष रूप से AI कैलकुलेशन क्षेत्र) की बाधाओं का विकास, "कैलकुलेशन (GPU) → स्टोरेज (HBM आदि) → ऑप्टिकल इंटरकनेक्शन → बिजली/तरल शीतलन" इस स्पष्ट क्रम में आगे बढ़ रहा है। यह 2025-2026 का उद्योग सहमति है, जब AI ट्रेनिंग/इन्फरेंस क्लस्टर्स एकल कैबिनेट (कुछ दर्जन GPU) से अत्यधिक पैमाने पर (हजारों से लेकर दस लाख GPU तक) विस्तारित होते हैं, तो प्रत्येक बाधा को हल करने के बाद, अगली भौतिक/आपूर्ति श्रृंखला सीमा तुरंत सामने आ जाती है, जो "लियोन्टीफ़-प्रकार" की पूरक प्रतिबंधों को बनाती है (एक भी कमी होने पर उत्पाद निकास नहीं हो सकता)।

ऑप्टिकल मॉड्यूल

इस विकास के कारण, वर्तमान स्थिति और पीछे के भौतिक/इंजीनियरिंग कारणों को समझना आवश्यक है:

1. प्रारंभिक चरण की सीमा: GPU गणना (2022-2024 का प्रमुख) मुख्य सीमा:

उच्च श्रेणी के GPU (जैसे NVIDIA Hopper H100 → Blackwell B200 → Rubin) की अपनी वेफर उत्पादन क्षमता + उन्नत पैकेजिंग।

बॉटलनेक क्यों: AI बड़े मॉडल को विशाल समानांतर कंप्यूटिंग की आवश्यकता होती है, जिससे TSMC के 4nm/3nm/2nm लॉजिक प्रक्रिया + CoWoS (2.5D/3D पैकेजिंग) की क्षमता एक बड़ी सीमा बन गई। भले ही फ्रंट-एंड वेफर पर्याप्त हों, लेकिन बैक-एंड में लॉजिक चिप + HBM को स्टैक करके पैकेज करने की क्षमता पीछे रह गई, जिससे पूरा GPU उत्पादित नहीं हो पा रहा है।

स्थिति में राहत: TSMC ने CoWoS की क्षमता में भारी वृद्धि की है (2024-2025 में क्षमता दोगुनी), NVIDIA Blackwell का बड़े पैमाने पर वितरण हो चुका है। लेकिन यह केवल "कंप्यूटिंग" चरण को अनलॉक करता है, जिसके तुरंत बाद नए समस्याएँ सामने आती हैं।

2. दूसरा चरण का बंधन: स्टोरेज (HBM हाई बैंडविड्थ मेमोरी, 2024-2025 में सबसे अधिक कमी वाला)

मुख्य प्रतिबंध: HBM3/HBM3e/HBM4 की उत्पादन क्षमता।

क्यों रिले बॉटलनेक बन गया: GPU की कैलकुलेशन क्षमता बढ़ी, लेकिन मॉडल पैरामीटर्स विस्फोटक रूप से बढ़ गए (ट्रिलियन या दस ट्रिलियन पैरामीटर्स), डेटा हस्तांतरण (मेमोरी बैंडविड्थ) "मेमोरी वॉल" बन गया। HBM प्रति सेकंड कई TB डेटा ट्रांसफर कर सकता है, जो सामान्य DDR मेमोरी से 20 गुना अधिक तेज़ है। चूंकि HBM लॉजिक चिप के बहुत करीब होता है, इसलिए डेटा को दूर तक ट्रांसमिट करने की आवश्यकता नहीं होती, जिससे ऊर्जा बचत होती है।

एक B200 GPU को 192GB+ HBM3e की आवश्यकता होती है, जिससे एक सिंगल कैबिनेट (NVL72) में HBM की कुल मात्रा 30-40TB तक पहुँच जाती है, और बैंडविड्थ की आवश्यकता पारंपरिक DRAM से कहीं अधिक है।

सप्लाई चेन की वर्तमान स्थिति: केवल SK हाइलेक्स, सैमसंग और माइक्रॉन ही HBM का बड़े पैमाने पर उत्पादन कर सकते हैं, जिसकी प्रक्रिया जटिल है (सिलिकॉन थ्रू-सिलिकॉन वियो, TSV + स्टैकिंग), 2025 में सभी उत्पाद बिक चुके हैं, 2026 में भी आपूर्ति मांग से कम होगी, और कीमतें पिछले वर्ष की तुलना में 246% बढ़ गई हैं। यहां तक कि अगर GPU चिप तैयार हो जाए, तो HBM के बिना इसे असेंबल या डिलीवर नहीं किया जा सकता, जिससे पूरे AI क्लस्टर डिप्लॉयमेंट में देरी होती है।

परिणाम: स्टोरेज को "उत्पाद" से रणनीतिक स्तर की बाधा बना दिया गया है, जिसमें पूंजी खर्च का 30% तक स्टोरेज पर खर्च हो सकता है।

3. तीसरा चरण का बंधन: प्रकाशिकी संयोजन (2025-2026 में स्विच हो रहा है)

मुख्य सीमाएँ: कॉपर केबल (NVLink/NVSwitch) की बैंडविड्थ, दूरी, बिजली खपत और भार पर भौतिक सीमाएँ।

प्रकाश की ओर जाना क्यों अनिवार्य है: एकल कैबिनेट (72 GPU) में तांबे के केबल का उपयोग संभव है, लेकिन जब इसे कई कैबिनेट तक, या हजारों GPU के बीच जोड़ने की आवश्यकता होती है, तो तांबे के केबल में भारी क्षय होता है (1.8 TB/s बैंडविड्थ पर प्रभावी दूरी <1 मीटर), भार विस्फोटक हो जाता है (NVL72 कैबिनेट में तांबे के केबल 5,000 से अधिक, कुल वजन 1.36 टन), और उच्च बिजली खपत (हटाने योग्य प्रकाश मॉड्यूल से तांबे के केबल को बदलने पर 20,000 वाट अतिरिक्त खपत होती है)। संकेत अखंडता, देरी, और तापमान नियंत्रण बड़े क्लस्टर के लिए समर्थन नहीं कर सकते।

समाधान: प्रकाशिक इंटरकनेक्ट (CPO सह-पैकेज्ड ऑप्टिक्स + सिलिकॉन फोटोनिक्स) पर स्विच करें। प्रकाश इंजन को GPU/ASIC के ठीक बगल में पैकेज करें, और स्केल-आउट के लिए ऑप्टिकल फाइबर का उपयोग करें, जिससे बैंडविड्थ घनत्व अधिक, प्रति बिट उपभोग कम और दूरी अधिक होगी।

ऑप्टिकल मॉड्यूल

NVIDIA ने 2026 के GTC पर भारी निवेश किया है, ऑप्टिकल कंपनियों में निवेश किया है, और 800G/1.6T ऑप्टिकल मॉड्यूल की मांग में विस्फोटक वृद्धि हुई है। lite, Broadcom, Coherent, Ayar Labs जैसी कंपनियाँ नए विजेता बन गई हैं।

वर्तमान प्रगति: कॉपर केबल सीमा तक पहुंच चुका है, ऑप्टिकल इंटरकनेक्ट अब "वैकल्पिक" से "अनिवार्य" बन रहा है और AI डेटासेंटर के प्रदर्शन की सीमा को तोड़ रहा है।

4. चौथा चरण की बाधा (वर्तमान में सबसे अग्रणी): बिजली + तरल शीतलन (2026 से अंतिम भौतिक सीमा बन जाएगी) मुख्य प्रतिबंध: शक्ति दीवार + ताप निकास दीवार + विद्युत नेटवर्क से कनेक्शन।

क्यों यह अंतिम बाधा है: प्रत्येक GPU 300W से 700-1200W तक, एकल कैबिनेट 10-20kW (CPU युग) से बढ़कर 120-200kW+ या उससे अधिक हो गया है। पारंपरिक एयर कूलिंग की भौतिक सीमा केवल 20-50kW है, शोर, हवा की मात्रा और ऊर्जा खपत सभी अस्वीकार्य हैं।

पावर साइड: डेटा सेंटर को GW स्तर की बिजली की आवश्यकता होती है, ग्रिड कनेक्शन के लिए कतार में लंबे समय तक इंतजार करना पड़ सकता है, और ट्रांसफॉर्मर, सॉलिड स्टेट ट्रांसफॉर्मर आदि उपकरणों की डिलीवरी अवधि 100 सप्ताह तक बढ़ गई है। माइक्रोसॉफ्ट के सीईओ ने सीधे कहा था, "GPU हैं, लेकिन प्लग करने के लिए बिजली नहीं है।"

लिक्विड कूलिंग साइड: डायरेक्ट-टू-चिप (सीधा चिप लिक्विड कूलिंग) या इमर्शन लिक्विड कूलिंग में स्विच करना आवश्यक है, जिसमें माइक्रोफ्लुइडिक, कूलिंग प्लेट आदि तकनीकों को शामिल किया जाए। टीएसएमसी ने CoWoS प्लेटफॉर्म पर सिलिकॉन-आधारित लिक्विड कूलिंग का प्रदर्शन किया है, जो >2.6kW TDP का समर्थन करती है। वर्टिव (VRT) जैसे लिक्विड कूलिंग/थर्मल मैनेजमेंट फर्म अब बुनियादी ढांचे का नया केंद्र बन गए हैं।

श्रृंखला प्रतिक्रिया: PUE (बिजली उपयोग कुशलता) की आवश्यकता <1.2, अतिरिक्त ऊष्मा पुनर्प्राप्ति, परमाणु ऊर्जा/नवीन ऊर्जा का ग्रिड में एकीकरण सभी नए विषय बन गए हैं। भले ही पिछले सभी चरणों को हल कर लिया गया हो, बिना बिजली और ठंडक के, कैबिनेट स्थापित और संचालित नहीं किए जा सकते।

ऑप्टिकल मॉड्यूल

AI कैलकुलेशन सप्लाई चेन की बैरियर के स्थानांतरण की मूल तर्कशक्ति: AI कैलकुलेशन एक "एकल बिंदु" समस्या नहीं है, बल्कि एक सिस्टम-लेवल लियोन्टिफ़ उत्पादन फ़ंक्शन है—GPU, HBM, इंटरकनेक्ट, बिजली, शीतलन को न्यूनतम दुर्बलता के अनुसार मैच किया जाना चाहिए। hyperscaler (गूगल, माइक्रोसॉफ्ट, मेटा आदि) प्रत्येक समस्या को हल करने के बाद तुरंत पूंजी और नवाचार को अगले चरण की ओर धकेल देते हैं।

वर्तमान में (2026 में), "ऑप्टिकल इंटरकनेक्शन का त्वरित अपनाया जाना + बिजली/तरल शीतलन का व्यापक वाणिज्यिक उपयोग" के संक्रमण काल में है, भविष्य में नए बैरियर्स (जैसे लेजर, ऑप्टिकल फाइबर सामग्री या ग्रिड ट्रांसफॉर्मर) भी उभर सकते हैं, लेकिन "कॉम्प्यूटिंग → स्टोरेज → ऑप्टिकल → बिजली/शीतलन" श्रृंखला अब उद्योग के द्वारा मान्य पथ के रूप में स्वीकार की गई है।

इससे यह भी स्पष्ट होता है कि निवेश तर्क NVIDIA/TSMC से HBM ट्रायड (SK हाइलेस आदि), ऑप्टिकल फर्म (Lumentum, Coherent), लिक्विड कूलिंग/बिजली बुनियादी ढांचे (Vertiv, संबंधित पावर कंपनियाँ) की ओर बदल गया है।

हर बैंकनिंग स्थानांतरण, सेमीकंडक्टर और डेटा सेंटर श्रृंखला के मूल्य वितरण को पुनर्गठित करता है।