सेरेब्रास का वेफर-स्केल AI चिप इन्फरेंस युग में मेमोरी दीवार को तोड़ता है

2026 में, वैश्विक AI विकास एक ऐतिहासिक मोड़ पर पहुँचा—अत्यधिक विस्तारित बादल फर्मों का निष्कर्षण पूंजी खर्च, इतिहास में पहली बार प्रशिक्षण पूंजी खर्च से अधिक हो गया। उद्योग का केंद्र “बड़े मॉडल बनाने” से “बड़े मॉडल का उपयोग करने” की ओर स्थानांतरित हो गया, और कैलकुलेशन की मांग की संरचना में मौलिक उलटफेर हुआ।

ट्रेनिंग एरा में, कैलकुलेशन की मुख्य चुनौती "डबल प्रिसिजन फ्लोटिंग पॉइंट और क्लस्टर स्केल" थी; जबकि इन्फरेंस एरा में, मुख्य चुनौती "मेमोरी बैंडविड्थ और कम्युनिकेशन लेटेंसी" बन गई है।

बड़े मॉडल निष्पादन की सीमा अब केवल गणना नहीं है, बल्कि डेटा स्थानांतरण है—मॉडल वजन, मध्यवर्ती एक्टिवेशन मान और KV कैश को बाहरी DRAM (जैसे HBM) और GPU के बीच बार-बार स्थानांतरित किया जाना आवश्यक है, जिससे मॉडल बड़ा होने के साथ-साथ डेटा स्थानांतरण की ऊर्जा खपत और देरी बढ़ती है, जो अंततः गणना की ऊर्जा खपत से कहीं अधिक हो जाती है, जिससे मेमोरी वॉल बन जाती है।

NVIDIA GPU ने CUDA और NVLink के साथ एक मजबूत किला बनाया है, लेकिन बैंडविड्थ बॉटलनेक के कारण GPU का अनावश्यक रूप से खाली रहना अभी भी बना हुआ है।

चीनी बड़े मॉडल कंपनी ज़हीपु ने एक बहुत सरल प्रयोग किया: एक 512-कार्ड इन्फरेंस क्लस्टर, GPU अपरिवर्तित, मॉडल अपरिवर्तित, कोड अपरिवर्तित, केवल नेटवर्क बैंडविड्थ सीमा 200GB/s से 400GB/s पर बदल दी गई, जिससे इन्फरेंस थ्रूपुट में 10% की वृद्धि हुई और पहले टोकन के आउटपुट लेटेंसी में 19% की कमी हुई—बात सरल है, जब तक सड़क को चौड़ा किया जाए, गाड़ियाँ तेज़ी से चल सकती हैं।

हालांकि, Cerebras जैसी गैर-GPU आर्किटेक्चर लगती है कि मेमोरी वॉल में एक दरार खोल रही हैं।

Wafer-level chip

Cerebras WSE-3 चिप और NVIDIA B200 GPU का आकार तुलना

Cerebras की प्रकृति: एक SRAM-आधारित निकट-स्टोरेज कंप्यूटिंग मशीन

सीरेब्रस सिस्टम्स की स्थापना एंड्रू फेल्डमैन और अन्य द्वारा सिलिकॉन वैली में की गई थी, जिसकी प्रारंभिक संस्थापक टीम पूरी तरह से एक नामक कंपनी SeaMicro के लो-पावर माइक्रो सर्वर से आई थी, जिसे बाद में AMD ने अधिग्रहण कर लिया, और फिर:

2015 में, संस्थापक टीम ने "वेफर-लेवल कॉम्प्यूटिंग" की राह अपनाई;

2016 में, पंजीकरण पूरा किया गया, A-चरण की निवेश प्राप्त हुई, और गुप्त अनुसंधान चरण में प्रवेश किया गया;

2019 में, टाइवेक 16 एनएम प्रक्रिया पर आधारित पहला उत्पाद WSE-1 चिप और CS-1 सिस्टम लॉन्च किया गया;

2021 में, ताइवान सेमीकंडक्टर मैनुफैक्चरिंग कंपनी के 7 एनएम प्रक्रिया पर आधारित द्वितीय पीढ़ी का उत्पाद जारी किया गया;

2024 में, तीसरी पीढ़ी का उत्पाद (WSE-3 / CS-3) जारी किया गया, जो TSMC के 5nm प्रक्रिया पर आधारित है, और चिप और सिस्टम दोनों का निर्माण संयुक्त राज्य अमेरिका में किया गया है, जो एक वास्तविक शुद्ध अमेरिकी निर्मित चिप सिस्टम है।

Wafer-level chip

CS-3 सिस्टम कॉन्फ़िगरेशन, जिसमें 1 WSE-3 चिप शामिल है

Cerebras के वेफर-स्केल इंजन (Wafer-Scale Engine, WSE) आर्किटेक्चर का दर्शन सरल और सीधा है, लेकिन यह समस्या को सीधे हिट करता है: डेटा हस्तांतरण की देरी को अधिकतम रूप से कम करने के लिए भौतिक स्थान का अधिकतम विस्तार करें।

सामान्य चिप्स में एक वेफर को कई छोटे चिप्स में काटा जाता है, जैसे कि NVIDIA GPU। Cerebras इसके विपरीत है: यह नहीं काटता, बल्कि लगभग पूरे वेफर को एक विशाल चिप में बदल देता है, जिसे Wafer-Scale Engine, WSE कहा जाता है।

पारंपरिक चिप्स को 300 मिमी व्यास के एक पूरे वेफर को सैकड़ों छोटे चिप्स में काटकर बनाया जाता है; जबकि Cerebras पूरे वेफर को बरकरार रखता है और इसे सीधे एक पूरे चिप के रूप में उपयोग करता है। नवीनतम WSE-3 में 4 ट्रिलियन ट्रांजिस्टर और 900,000 AI कोर हैं, जिनमें प्रत्येक कोर के साथ 48KB स्थानीय SRAM शामिल है, जिससे पूरे चिप पर SRAM की क्षमता 44GB हो जाती है, जो 21 PB/सेकंड की ऑन-चिप मेमोरी बैंडविड्थ (on‑chip memory bandwidth) और 214 Pb/सेकंड की नेटवर्क बैंडविड्थ (fabric bandwidth) प्रदान करती है, जो पारंपरिक HBM बैंडविड्थ से हजारों गुना अधिक है।

Wafer-level chip

Cerebras WSE की मेमोरी बैंडविड्थ निविडा B200 पैकेज्ड चिप की तुलना में 2625 गुना है, जो बड़े मॉडल इन्फरेंस सीनेरियो में मेमोरी बैंडविड्थ की सीमा को तोड़ती है।

Cerebras के आर्किटेक्चर में, मॉडल वेट्स कभी भी SRAM पर मौजूद नहीं होते, बल्कि बाहरी स्टोरेज MemoryX पर संग्रहीत होते हैं और प्रत्येक परत के साथ बड़े चिप पर स्थानांतरित होते हैं। इसे तार्किक रूप से तार्किक रूप से न्यूरल नेटवर्क मॉडल के वेट्स स्टोरेज और कैलकुलेशन यूनिट को अलग करके प्राप्त किया जाता है।

सभी मॉडल वेट्स को मेमोरी एक्सटेंशन मॉड्यूल MemoryX में बाहरी रूप से संग्रहीत किया जाता है, और नेटवर्क के प्रत्येक स्तर के लिए आवश्यक वेट्स को आवश्यकता के अनुसार स्तर-दर-स्तर CS-3 सिस्टम में स्थानांतरित किया जाता है। वेट्स MEMORY X के DRAM और फ्लैश में संग्रहीत होते हैं और पूरी बैंडविड्थ दर पर CS-3 सिस्टम में स्थानांतरित होते हैं। ये वेट्स CS-3 सिस्टम में संग्रहीत नहीं होते, यहां तक कि अस्थायी कैश भी नहीं रखा जाता, CS-3 केवल अपनी मूलभूत डेटा स्ट्रीम मैकेनिज़्म पर निर्भर करता है।

Cerebras की वेफर-स्तरीय आर्किटेक्चर के कारण, मेमोरी बैंडविड्थ से प्रतिबंधित LLM निष्पादन में यह एक अद्वितीय बाधा प्रस्तुत करता है। प्रति टोकन उत्पादन के दौरान, वजन स्तर द्वारा बाहरी MemoryX से CS-3 तक स्ट्रीम होते हैं, और विभिन्न मॉडल चलाने पर, टोकन दर निविडा B200 की 1.5 से 5 गुना होती है।

Wafer-level chip

NVIDIA DGX B200 GPU बनाम Cerebras CS-3 चिप, विभिन्न बड़े मॉडल्स के टोकन रेट की तुलना

इसका मुख्य लाभ यह है कि CS-3 का 44GB ऑन-चिप SRAM 21 PB/s (B200 की 2625 गुना) अत्यधिक बैंडविड्थ और 214 Pb/s इंटरकनेक्ट प्रदान करता है, जिससे वेट्स स्ट्रीमिंग HBM इंटरफेस की सीमाओं से मुक्त हो जाती है। इसलिए TTFT (Time To First Token, अनुरोध भेजने से मॉडल द्वारा पहला token लौटाने तक का समय), लंबे संदर्भ और एजेंट वर्कलोड पर यह विशेष रूप से उत्कृष्ट प्रदर्शन करता है।

हालांकि वजन MemoryX के बाहर स्थित हैं और आवश्यकता के आधार पर प्रति परत लोड किए जाते हैं और चिप पर कैश में नहीं होते, CS-3 SRAM में पूर्ण FP16 परिशुद्धता के साथ क्षतिरहित गणना के लिए कोर डेटा प्रवाह तंत्र पर निर्भर करता है; रैखिक प्रदर्शन विस्तार के कारण, यह बहु-उपयोगकर्ता समानांतर निष्पादन के दौरान अद्भुत कुल थ्रूपुट प्रदान करता है।

बैंडविड्थ के अलावा, बिजली की खपत में भी लाभ है। हाल ही में, केन्ज़ी ज़ुचुआंग के अध्यक्ष लिउ शेंग ने अपने सम्बोधन में उल्लेख किया कि ग्राहक ऑप्टिकल मॉड्यूल के लिए 1 pJ/bit की मांग कर रहे हैं, जबकि वर्तमान में यह 10 pJ/bit है। सेरेब्रास चिप में, इंटरकनेक्ट की बिजली की खपत केवल 0.15 pJ/bit है, जबकि वर्तमान GPU की इंटरकनेक्ट बिजली की खपत 10 pJ/bit है।

Wafer-level chip

Cerebras इंटरकनेक्ट और GPU इंटरकनेक्ट आर्किटेक्चर की बैंडविड्थ और बिजली खपत की तुलना

इससे स्पष्ट है कि यदि Cerebras का वेफर-लेवल बड़ा चिप आर्किटेक्चर AI निष्कर्षण और यहां तक कि प्रशिक्षण का प्रमुख मानक बन जाता है, तो पारंपरिक ऑप्टिकल मॉड्यूल और CPO (को-पैकेज्ड ऑप्टिक्स) की डिलीवरी पर महत्वपूर्ण नियंत्रण और संरचनात्मक परिवर्तन हो सकता है। मुख्य तर्क यह है: ऑप्टिकल मॉड्यूल और CPO की उच्च मांग मूल रूप से GPU क्लस्टर में "चिप-बीच इंटरकनेक्शन" और "नोड-बीच इंटरकनेक्शन" के बैंडविड्थ बॉटलनेक को हल करने के लिए है; जबकि Cerebras का आर्किटेक्चर "वितरित इंटरकनेक्शन को समाप्त करके" समस्या का समाधान करता है।

विपरीत: वेफर-लेवल बड़े चिप की "असली और नकली" कमजोरी

चिप का मूल हमेशा ट्रेड ऑफ (समझौता) में होता है। सीरेब्रास ने ऑन-चिप SRAM के लिए अत्यधिक बैंडविड्थ के लिए कुछ समस्याएँ भी उत्पन्न की हैं।

Low yield?

विपरीत रूप से, एकल AI कोर का आकार 0.05 वर्ग मिमी तक कम हो गया है (H100 के एकल ऑपरेशनल कोर का 1%), इसलिए उत्पादन दर अधिक है। ऑन-चिप रूटिंग के माध्यम से, दोषपूर्ण कोर को बंद किया जा सकता है और उन्हें बायपास किया जा सकता है, जिससे पारंपरिक मल्टी-कोर प्रोसेसर की तुलना में दोष सहनशीलता 100 गुना बढ़ जाती है। वास्तव में, पूरे चिप में 10 लाख AI कोर हैं, लेकिन उत्पादन दर को ध्यान में रखते हुए, 9 लाख AI कोर का दावा किया जाता है।

केवल तर्क करने में महारथ है, ट्रेनिंग में नहीं?

Cerebras की स्थापना के कुछ वर्षों के भीतर, प्रशिक्षण प्रमुख विषय था, इसलिए कंपनी हमेशा प्रशिक्षण पर बहुत काम करती रही, लेकिन जब निष्कर्षण की मांग तेजी से बढ़ी, तो लोगों ने देखा कि इसकी निष्कर्षण में अधिक ताकत है।

वास्तव में, सरलीकृत वितरित गणना से कोड जटिलता में कमी और संचार लागत में कमी जैसे कई लाभ भी आते हैं।

4000 GPU पर 1750 अरब पैरामीटर के मॉडल को ट्रेन करने के लिए आमतौर पर लगभग 20,000 पंक्तियों का वितरित ट्रेनिंग कोड आवश्यक होता है।

Cerebras ने 565 पंक्तियों के कोड के समकक्ष प्रशिक्षण को प्राप्त किया — पूरा मॉडल वेफर पर स्थापित किया जा सकता है और डेटा समानांतरता की जटिलताओं को संभालने की आवश्यकता नहीं है।

SRAM स्केलिंग मर चुकी है, और मुख्य लाभ भौतिक सीमा का सामना कर रहे हैं।

तीसरी पीढ़ी का उत्पाद TSMC के 5nm प्रक्रिया पर आधारित है, और इसकी SRAM क्षमता केवल TSMC के 7nm पर आधारित दूसरी पीढ़ी की तुलना में 10% अधिक है; 5nm के बाद, SRAM इकाई का क्षेत्रफल लगभग प्रक्रिया में सुधार के साथ घटना बंद हो जाता है।

इसका अर्थ है कि Cerebras अब पिछले समय की तरह टाइवेक के प्रक्रिया को अपग्रेड करके (जैसे 5nm से 3nm तक) अपने मुख्य लाभ (SRAM क्षमता) को महत्वपूर्ण रूप से बढ़ाने में सक्षम नहीं है।

वेफर आकार, ताप निकास क्षमता और निर्माण लागत के कारण, ऑन-चिप SRAM जैसे स्टोरेज संसाधनों का गणना कोर के साथ रैखिक रूप से विस्तार करना मुश्किल है, जिससे संसाधन अनुपात में बाधा उत्पन्न होती है। यह लगभग इसके विकास के मार्ग को बंद कर देता है।

Wafer-level chip

Cerebras तीसरी पीढ़ी के उत्पाद की तकनीकी विशेषताएँ

शीतलन, निर्माण और पारिस्थितिकी का त्रिगुण आग।

पूरे वेफर पर ताप एकत्रित होता है, जिसका तापीय फ्लक्स घनत्व उच्च होता है, इसलिए इसके लिए कस्टम डेटासेंटर और विशेष तरल शीतलन प्रणाली की आवश्यकता होती है। इसके अलावा, पारिस्थितिक सामान्यता का अर्थ है कि ग्राहकों को अपने कस्टम सॉफ्टवेयर स्टैक के साथ अनुकूलित होना पड़ता है, जिसकी CUDA जैसी सामान्य प्रोग्रामिंग फ्रेमवर्क के साथ संगतता कम होती है, और सॉफ्टवेयर स्थानांतरण और अनुकूलन की लागत उच्च होती है।

बाहरी बैंडविड्थ कम होने के कारण, यह विस्तार का "द्वीप" बन गया है।

वेफर-लेवल फिजिकल डिज़ाइन के प्रतिबंधों के कारण, WSE के किनारे से निकाले जा सकने वाले I/O पिन की संख्या बहुत सीमित है, जिसके कारण इसकी I/O बैंडविड्थ केवल 150GB/s है। यह निविडा की NVLink की 1.8TB/s की द्विदिशा बैंडविड्थ की तुलना में एक घोंघे की तरह है। इसका मतलब है कि WSE को बाहरी रूप से उच्च गति से विस्तारित करना अत्यंत कठिन है। हालाँकि Cerebras का SwarmX इंटरकनेक्ट मल्टी-सिस्टम कॉम्बिनेशन में काफी अच्छा काम करता है, लेकिन बहुत-बड़े मॉडल्स के लिए जहाँ मल्टी-चिप उच्च गति से जुड़ने की आवश्यकता होती है, बहुत कम ऑफ-चिप बैंडविड्थ एक संरचनात्मक भौतिक बंधन बन जाती है।

रूट लड़ाई: बड़ी कंपनियाँ अपना खुद का विकास कर रही हैं, Cerebras के लिए खिड़की कितनी देर तक खुली रहेगी?

बड़ी कंपनियाँ "निष्कर्षण के लिए अधिक बैंडविड्थ और कम लेटेंसी की आवश्यकता" को हल करने के लिए केवल वेफर-स्केल एकमात्र रास्ता नहीं है, वे एक साथ तीन समानांतर मार्गों के माध्यम से स्टार्टअप कंपनियों के तकनीकी लाभ पर घेराबंदी कर रही हैं।

① स्वयं डिज़ाइन किया गया ASIC चिप

Google TPU v8 अब ट्रेनिंग-विशिष्ट और इन्फरेंस-विशिष्ट दो संस्करणों में विभाजित हो चुका है; AWS Trainium 4 रास्ते में है; Microsoft Maia Azure के भीतर उपयोग किया जा रहा है, जो TSMC के 3nm प्रक्रिया पर आधारित है, जिसमें मूल रूप से FP8/FP4 टेंसर कोर, पुनः डिज़ाइन किया गया मेमोरी सिस्टम, 216GB HBM3e और 272MB ऑन-चिप SRAM शामिल है; और यहां तक कि Anthropic भी अपने स्वयं के इन्फरेंस चिप का मूल्यांकन करना शुरू कर चुका है।

इस पथ की संभावना अत्यधिक उच्च है, जो 2028 तक के TAM (कुल पहुंच बाजार) में "तीसरे पक्ष के इन्फरेंस खरीद" को सीधे प्रभावित करेगी, जिससे सीमा 10% से 25% तक संकुचित हो जाएगी।

② मानक पैकेजिंग रूट की प्रक्रिया सामान्यीकरण

यह Cerebras के लिए सबसे सीधा डाइमेंशनल ड्रॉप है।

TSMC का SoW (System-on-Wafer) ग्राहकों के लिए व्यापक रूप से उपलब्ध है, और CoWoS 9.5x इंटरपोजर 2027 में लॉन्च होगा।

इन दो उत्पादों द्वारा किया जा रहा कार्य—वेफर स्तर पर कई die को स्टिच करना—मूलतः सीरेब्रस की भौतिक प्रक्रिया को सामान्यीकृत और लोकप्रिय बनाना है।

NVIDIA की Vera Rubin 2026 के दूसरे छमाही में इस इकोसिस्टम में प्रवेश करेगी।

Cerebras द्वारा अपने द्वारा बनाए गए cross-reticle stitching का उपयोग एकाधिकार है, लेकिन एकाधिकार की अवधि केवल 2 से 3 वर्ष तक ही होगी, और 2027-2028 के बाद, इसकी प्रक्रिया बाधा TSMC के उन्नत पैकेजिंग द्वारा कम हो जाएगी।

③ प्रकाश संबंधी कनेक्टिविटी / प्रकाश गणना का ब्रेकआउट

इलेक्ट्रॉनिक चिप्स के इंटरकनेक्शन और मेमोरी वॉल अब सीमा तक पहुँच चुके हैं; फोटॉनिक्स की उच्च बैंडविड्थ, कम लेटेंसी और शून्य क्रॉसटॉक अंतिम हल हैं।

लुमेंटम जैसी ऑप्टिकल राह उभर रही है। वेफर-स्केल का सबसे बड़ा फायदा चिप पर कंप्यूटिंग है, लेकिन मॉडल अवश्य ही बड़े होते जाएंगे, और वेफर स्केल से आगे की हाई-स्पीड इंटरकनेक्शन एक आवश्यकता है।

CPO (कॉ-पैकेज्ड ऑप्टिकल) और ऑप्टिकल इंटरकनेक्ट्स के परिपक्व होने के साथ, हम भविष्य में प्रकाशीय I/O को सीधे WSE वेफर में शामिल करने की संभावना देख सकते हैं, जिससे विद्युत इंटरकनेक्शन के बंधन टूट जाएंगे; और निविडा संभवतः LPU (जैसे Groq) जैसी विशिष्ट आर्किटेक्चर के लाभ रखने वाली कंपनियों का अधिग्रहण करके, प्रकाशीय इंटरकनेक्शन को जोड़कर, मौजूदा NV सुपरनोड सॉफ़्टवेयर के साथ संगत वेफर-स्तरीय प्रणाली विकसित कर सकती है।

Cliffside Sprint: Cerebras' Business and Delivery

Cerebras वर्तमान में विशाल ऑर्डर के कारण एक चट्टान से गिरने जैसी स्थिति में है।

与OpenAI等顶级大客户的交易，迫使Cerebras从一家芯片公司转型为新型云服务商。它不再只是销售硬件，而是需要在短期内锁定并建设海量的数据中心电力和设施。

अनुबंध की आवश्यकताओं के अनुसार, सेरेब्रास को 2026 से 2028 तक प्रत्येक वर्ष 250 मेगावाट डेटा सेंटर क्षमता वितरित करनी होगी। हालाँकि, वेफर-लेवल सिस्टम को डेटा सेंटर के लिए अत्यधिक उच्च आवश्यकताएँ हैं, जिन्हें पारंपरिक एयर-कूल्ड IDC में सीधे फिट नहीं किया जा सकता। वर्तमान में, सेरेब्रास डेटा सेंटर क्षमता की तैयारी में अनुबंध की आवश्यकताओं की तुलना में स्पष्ट रूप से पीछे है।

फैब्रिकेशन से लेकर संयंत्र निर्माण तक, बिजली की अनुमति से लेकर शीतलन प्रणाली तक, यह एक भारी संपत्ति वाला, लंबे चक्र वाला जटिल मामला है।

अंत: बाएं या दाएं?

मूल प्रस्ताव पर वापस जाएं, जब निष्कर्षण की गणना क्षमता का मोड़ आ गया है, तो क्षमता ढांचे का केंद्र हमेशा चयन और त्याग में होता है।

कोई निरपेक्ष सही या गलत नहीं है, केवल सबसे महत्वपूर्ण लोड के तहत सापेक्षिक उत्तम हल हैं। लोड पहले से ही बदल रहा है।

सेरेब्रास बाईं ओर गया, और एकल कार्य के लिए अत्यधिक कम लेटेंसी प्राप्त करने के लिए पूरे वेफर और विशाल SRAM का उपयोग करके अत्यधिक भौतिक अनुकूलन का चयन किया, जो पहले टोकन लेटेंसी के प्रति अत्यधिक संवेदनशील परिदृश्यों में अजेय है।

निविडा ने दाईं ओर चुनाव किया, सामान्यता को बनाए रखते हुए, HBM + NVLink + अत्यधिक क्लस्टर थ्रूपुट के साथ विविध लोड का सामना किया, ताकि अपरिवर्तित रहकर सब कुछ का जवाब दिया जा सके।

तूफान उठ रहे हैं, आगे का रास्ता अनिश्चित है। यही तकनीकी और व्यावसायिक दोनों की अनिश्चितता, विप्लव की संभावना को जन्म देती है। AGI की गणना की बाढ़ में, अभी निष्कर्ष निकालना अभी जल्दी है—क्योंकि अनिश्चितता ही अवसर लाती है।

यह लेख वेचेन ग्रुप "डेली गार्लिक ग्रेन लैब" से है, लेखक: पॉवर रेंजर