ज़हिपू AI का स्टॉक 400 टोकन/सेकंड API लॉन्च के बाद 26% बढ़ गया

विंडो | AIDeepDive

आज, "विश्व का पहला बड़ा मॉडल" Zhipu (02513.HK) फिर से तेजी से बढ़ा।

अवधि के दौरान लाभ 30% से अधिक हो गया। बंद कीमत 1282 हांगकांग डॉलर, पूरे दिन का लाभ 26% से अधिक, और बाजार पूंजीकरण 5715.7 अरब हांगकांग डॉलर, जो फिर से नया रिकॉर्ड है।

बड़ा मॉडल

इस तेज़ वृद्धि का कारण एक विशिष्ट तकनीकी सूचक है: 400 tokens/s।

22 मई को, ZhiPu ने उद्यम ग्राहकों के लिए GLM-5.1 हाईस्पीड API (GLM-5.1-highspeed) का आधिकारिक रूप से अनावरण किया, जिसका सबसे महत्वपूर्ण मुख्य पैरामीटर एक है: मॉडल आउटपुट गति 400 टोकन प्रति सेकंड है, जो वैश्विक बड़े मॉडल निर्माताओं के API गति सीमा को नया रिकॉर्ड देती है।

मैंने मान लिया था कि यह फिर से एक घरेलू बड़े मॉडल का प्रचार है, लेकिन तकनीकी विवरणों को ध्यान से देखने के बाद, मैंने पूंजी बाजार के पीछे की तर्कशक्ति को समझ लिया।

400 टोकन/सेकंड क्या है?

मॉडल प्रति सेकंड लगभग 200 चीनी वर्ण उत्पन्न कर सकता है, जो एक पेशेवर लेखक के एक मिनट के तीव्र उत्पादन को एक सेकंड में समेट देता है।

एक क्रिएटर जो कई दिनों तक लगातार बैठकर लिखता है, उसकी लिखी गई मात्रा को GLM-5.1 हाई-स्पीड वर्जन 1 मिनट में पूरा कर देता है; एक इंजीनियर जो 3 दिनों तक काम करके सिस्टम री-इंजीनियरिंग पूरी करता है, उसे यह एक कॉफी पीने के समय में पूरा कर देता है।

01 गति, जितनी आप सोचते हैं उससे अधिक महत्वपूर्ण

गति, जो एआई मॉडल प्रतिस्पर्धा में सबसे अक्सर नज़रअंदाज़ किया जाने वाला पहलू रही है।

पिछले तीन वर्षों में, बड़े मॉडल के आयुध प्रतिस्पर्धा में दो पथों पर ध्यान केंद्रित रहा: पैरामीटर स्केल (मॉडल बड़ा और अधिक बुद्धिमान) और मूल्य प्रतिस्पर्धा (टोकन सस्ते और अधिक सामान्य)। "तेज़" कभी मुख्य भूमिका नहीं रहा।

क्योंकि पिछले “तेज” को आमतौर पर मॉडल पैरामीटर्स को कम करके प्राप्त किया जाता था। तेजी लाने के लिए, आपको छोटे और अधिक संक्षिप्त मॉडल का उपयोग करना होगा, जिसकी कीमत इसकी क्षमता में कमी है।

GLM-5.1 हाई-स्पीड वर्जन का इस बार का महत्व यह है कि यह फ्लैगशिप-लेवल की पूर्ण आकार की बेस मॉडल क्षमताओं को बरकरार रखते हुए, गति को 400 टोकन/सेकंड तक पहुँचा देता है।

देशी मॉडल के संदर्भ में या अंतरराष्ट्रीय स्तर पर, "फ्लैगशिप क्षमता" और "अत्यधिक निम्न लेटेंसी" को पहली बार बिना किसी समझौते के प्राप्त किया गया है।

बड़ा मॉडल

क्यों गति इतनी महत्वपूर्ण है? क्योंकि AI का मुख्य क्षेत्र मौलिक रूप से स्थानांतरित हो रहा है।

जब AI चैटबॉट से एजेंट युग में प्रवेश करता है, तो प्रश्नोत्तर AI का मुख्य स्थिति नहीं रह जाता, और एजेंट को एक कार्य पूरा करने के लिए अक्सर मॉडल को दर्जनों या सैकड़ों बार स्वयं को बुलाना पड़ता है: कोड लिखना, इंटरफ़ेस कॉल करना, जानकारी खोजना, उपकरणों का उपयोग करना...

इस कार्य विधि में, प्रत्येक चक्र के बीच की देरी निर्दयता से जमा होकर बढ़ जाती है। यदि किसी कार्य को पूरा करने के लिए 50 चक्र की आवश्यकता होती है और प्रत्येक चक्र में 1 सेकंड बचाया जाता है, तो पूरा कार्य लगभग 1 मिनट तेज़ हो जाता है। AI प्रोग्रामिंग सहायक, वॉइस इंटरैक्शन और व्यावसायिक निर्णय प्रणालियों के लिए यह अंतर जीवन और मृत्यु का फैसला कर सकता है।

गहराई से, एक निश्चित समय बजट के भीतर तेज़ निष्पादन का अर्थ है कि मॉडल गहरी निष्पादन पथों और अधिक चक्रों के स्व-पुष्टि को पूरा कर सकता है। गति, अब प्रणाली सूचक से बदलकर बुद्धिमत्ता की सीमा बन गई है।

02 इस गति की बात में, कितना कठिन है?

अब उद्योग में गति का स्तर क्या है?

शीर्ष निर्माताओं में, OpenAI का GPT-4o लगभग 100–150 टोकन/सेकंड पर है, Anthropic का Claude Sonnet श्रृंखला लगभग 80–120 टोकन/सेकंड पर है, और घरेलू प्रमुख फ्लैगशिप मॉडल API अधिकांशतः 50–100 टोकन/सेकंड के बीच हैं। 400 टोकन/सेकंड लगभग उद्योग के औसत का 3 से 5 गुना है।

更重要的是，这个差距并不是投入更多算力就能弥补的。

8 H200 ग्राफिक्स कार्ड वाला सर्वर, सैद्धांतिक रूप से, प्रति सेकंड लगभग 38 टीबी डेटा स्थानांतरित कर सकता है। GLM-5.1 के लिए, एक टोकन को जनरेट करने के लिए लगभग 42 जीबी एक्टिवेशन पैरामीटर्स पढ़ने की आवश्यकता होती है, शुद्ध सैद्धांतिक अनुमान के अनुसार, यह लगभग 1000 टोकन/सेकंड के करीब पहुँच सकता है।

लेकिन वास्तविक प्रणालियाँ अक्सर केवल कुछ दर्जन टोकन/सेकंड चला सकती हैं।

बड़ा मॉडल

यह एक अंतराल है। GPU बस इतनी तेज़ नहीं है, बल्कि बहुत समय इंतजार, निष्क्रियता और अक्षम नियोजन में बर्बाद हो जाता है।

ZhiPu ने इस बार निष्कर्ष इंजन, समानांतर रणनीति और नेटवर्क आर्किटेक्चर के तीन स्तरों पर एक साथ नवीनता लाई है, जिससे अंतिम गति में क्रांति आई है।

बड़ा मॉडल

03 तीन स्तरीय तकनीकों का संयोजन, हार्डवेयर की भौतिक सीमा के करीब पहुँच रहा है

बड़े मॉडल इस तरह काम करते हैं, बड़े मॉडल को अलग-अलग ऑपरेटर्स में विभाजित किया जाता है, प्रत्येक ऑपरेटर अलग से एक कैलकुलेशन कोर (कर्नेल) शुरू करता है, गणना पूरी होने के बाद रुक जाता है, सिंक्रोनाइज़ करने के लिए प्रतीक्षा करता है, फिर अगला शुरू करता है।

ट्रेनिंग चरण में, प्रत्येक गणना कई सेकंड या कई मिनट लेती है, इसलिए शुरू करने और प्रतीक्षा करने की लागत पूरी तरह नगण्य होती है। लेकिन निष्पादन के समय, एक बार में केवल एक टोकन उत्पन्न किया जाता है, और कुछ महत्वपूर्ण चरण केवल कुछ दशमिक माइक्रोसेकंड में पूरे हो सकते हैं, जिससे शुरू करने और प्रतीक्षा करने की लागत सापेक्ष रूप से महत्वपूर्ण हो जाती है।

TileRT का मूल विचार: पूरे मॉडल को एक निरंतर चलने वाले इंजन में कंपाइल करना, एक बार स्टार्ट करें, कभी बंद न करें।

TileRT ने कोड कंपाइलेशन चरण में मॉडल की सभी गणना तर्कों को स्थिर रूप से एक लगातार पाइपलाइन में विस्तारित कर दिया है, जिससे रनटाइम पर GPU हमेशा उच्च गति से संचालित रहता है, गणना, डेटा स्थानांतरण और संचार समानांतर रूप से आगे बढ़ते हैं, और मध्यवर्ती परिणामों को जितना संभव हो उतना GPU के आंतरिक हाई-स्पीड कैश में ही रखा जाता है, ताकि उन्हें फिर से धीमी VRAM में लिखने और पुनः पढ़ने की आवश्यकता न हो।

बड़ा मॉडल

यहाँ एक महत्वपूर्ण डिजाइन विवरण है: वार्प विशेषीकरण।

वार्प को समझने के लिए, GPU के कार्य करने के तरीके को समझना आवश्यक है। GPU और CPU के बीच सबसे बड़ा अंतर यह है कि इसके अंदर हजारों अपेक्षाकृत सरल कैलकुलेशन इकाइयाँ होती हैं, जो 32 के समूह में बंडल की जाती हैं, और इस समूह को वार्प कहा जाता है।

एक ही वार्प में 32 इकाइयाँ हमेशा समन्वयित ढंग से कार्य करती हैं और एक ही निर्देश का निष्पादन करती हैं, जैसे कि सैन्य टुकड़ी में एक क्लास के सभी सदस्य अपने कमांडर के आदेश पर एक साथ एक ही कार्रवाई करते हैं।

पारंपरिक ढांचे में, सभी Warp एक ही निर्देश अनुक्रम को निष्पादित करते हैं; TileRT विभिन्न Warp समूहों को अलग-अलग जिम्मेदारियाँ देता है: एक हिस्सा अगले डेटा को पहले से ही लाने के लिए, एक हिस्सा केवल गणितीय गणनाओं के लिए, और एक हिस्सा अन्य GPU के साथ संचार के लिए समर्पित है। तीनों समूह एक साथ काम करते हैं, एक नली की तरह सहयोग करते हैं, और एक-दूसरे का इंतजार नहीं करते।

जैसे कि "एक मजदूर ईंटें ले जाता है, दीवार बनाता है, और जांच एक साथ करता है" से बदलकर "ईंटें ले जाने वाला टीम, दीवार बनाने वाला टीम, और जांच वाला टीम एक साथ काम करते हैं"।

एकल कार्ड की दक्षता सुलझ गई, लेकिन बहु-कार्ड समानांतरता में नए चुनौतियाँ उभरी हैं।

उद्योग का मानक अभ्यास टेंसर पैरललिज़म (Tensor Parallel) है: मॉडल के वजन मैट्रिक्स को कई भागों में विभाजित किया जाता है, जिसमें प्रत्येक GPU एक भाग को संभालता है, और फिर उच्च गति के इंटरकनेक्ट (NVLink) के माध्यम से परिणामों को एकत्रित किया जाता है।

यह योजना मैट्रिक्स गुणन जैसे व्यवस्थित घने गणनाओं के लिए बहुत अच्छी काम करती है और वर्तमान में लगभग सभी बड़े मॉडल निष्पादन फ्रेमवर्क का मानक बहु-कार्ड समाधान है।

GLM-5.1 उपयोग करता है **MLA (Multi-head Latent Attention, Multi-head Latent Attention)**, जो DeepSeek द्वारा प्रस्तावित एक ध्यान तंत्र है।

पारंपरिक ध्यान तंत्र को प्रत्येक चरण पर गणना किए गए बड़ी मात्रा में मध्यवर्ती डेटा (KV Cache) को पूरी तरह सहेजने की आवश्यकता होती है, जिससे GPU मेमोरी का बहुत अधिक उपयोग होता है; MLA का दृष्टिकोण इन मध्यवर्ती डेटा को एक संकुचित "लेटेंट वेक्टर" में संपीड़ित करके सहेजना है, और उपयोग के समय इसे फिर से विस्तारित करके पुनः प्राप्त करना है, जिससे GPU मेमोरी की आवश्यकता में भारी कमी आती है और निष्पादन कुशलता बढ़ जाती है।

लेकिन MLA की गणना प्रक्रिया में एक विशेष चरण है: बड़ी मात्रा में ऐतिहासिक जानकारी से विरल सूचकांक बनाना आवश्यक है: जैसे एक विशाल पुस्तकालय में सबसे संबंधित कुछ पुस्तकों को तेजी से ढूंढना, और फिर इन पुस्तकों को विस्तार से पढ़ना।

"找书" चरण पूर्ण जानकारी पर निर्भर करता है, इसलिए इसे कई GPU पर बांटना उपयुक्त नहीं है; "सूक्ष्म पठन" ही बहुत GPU के समानांतर परिकलन के लिए उपयुक्त है। यदि आप सभी 8 GPU को "找书" में शामिल करने का प्रयास करते हैं, तो GPU के बीच समन्वय संचार पर बहुत समय बर्बाद होगा।

TileRT का समाधान GPU को असमान रूप से चलाना है: GPU 0 को "पुस्तकालय अनुसंधानकर्ता" के रूप में नियुक्त किया जाता है, जो विरल सूचकांक और रूटिंग निर्णय के लिए जिम्मेदार है; GPU 1–7 को "गहन विश्लेषणकर्ता" के रूप में नियुक्त किया जाता है, जो सघन ध्यान गणना और आव्यूह गणना के लिए जिम्मेदार हैं। दोनों प्रकार के कार्यकर्ता अपने-अपने लिए सबसे उपयुक्त समानांतर रणनीति का उपयोग करते हुए पूरी कैलकुलेशन लेयर को पूरा करते हैं।

बड़ा मॉडल

इसके बाद, TileRT ने GPU के बीच के संचार संचालन को भी सीधे निष्पादन पाइपलाइन में एम्बेड कर दिया, जिसे अब अलग चरण के रूप में नहीं माना जाता। बाहरी दृष्टि से, पूरे 8-GPU सिस्टम को एक ध्यान कैलकुलेशन पूरा करने में केवल एक ही कर्नेल स्टार्ट की आवश्यकता होती है, और आंतरिक संचार और गणना पूरी तरह से निरंतर पाइपलाइन के भीतर बिना किसी बाधा के पूरा हो जाते हैं।

ऊपर के दो स्तरों द्वारा एकल मशीन के दायरे की समस्याएँ हल की जाती हैं। जब क्लस्टर को सैकड़ों या हजारों GPU तक विस्तारित किया जाता है, तो GPU के बीच डेटा स्थानांतरण स्वयं एक नया बाधा बन जाता है।

Industry standard practice is ROFT (Rail-Optimized Fat-Tree), the officially recommended solution by NVIDIA and the absolute industry standard.

इसकी संरचना एक वृक्ष है: सर्वर पहले नीचले स्तर के Leaf स्विच (एक्सेस लेयर, सर्वर की ओर सीधे संबंधित) से जुड़ता है, और Leaf फिर Spine स्विच (बॉन लेयर, जो विभिन्न Leaf के बीच कनेक्टिविटी के लिए जिम्मेदार है, जैसे एक हाईवे हब) की ओर ऊपर की ओर जुड़ता है। दो GPU के बीच डेटा का संचरण "पहले Spine तक ऊपर की ओर, फिर लक्ष्य Leaf तक नीचे की ओर" होता है, जिसमें कम से कम 3 होप्स शामिल होते हैं।

इस आर्किटेक्चर को कम से कम लिंक्स पर ट्रैफ़िक केंद्रित होने से बचाने के लिए, ECMP एल्गोरिदम का उपयोग किया जाता है ताकि डेटा को कई पथों के बीच वितरित किया जा सके, जो इंटरनेट ट्रैफ़िक के "सांख्यिकीय रूप से समान" होने की पूर्वधारणा पर कार्य करता है।

लेकिन निष्कर्ष दृश्यों का ट्रैफ़िक पूरी तरह असमान है। विभिन्न अनुरोधों की संदर्भ लंबाई में दर्जनों गुना का अंतर हो सकता है, GPU के बीच KV Cache के स्थानांतरण की दिशा लगभग यादृच्छिक होती है, कुछ पत्ती स्विच आवर्ती रूप से हॉटस्पॉट बन जाते हैं, जो प्रतिप्रतिक्रिया तंत्र को ट्रिगर करते हैं और संकुलन को स्थानीय से पूरे लिंक तक फैला देते हैं। यह संकुलन प्रोटोकॉल के पैरामीटर को समायोजित करके हल नहीं किया जा सकता, यह टोपोलॉजी संरचना का स्वयं का उत्पाद है।

बड़ा मॉडल

ZCube की मूलभूत क्रांति: इस तरह की संकुचन को आर्किटेक्चरल स्तर पर भौतिक रूप से असंभव बनाना।

मुख्य डिजाइन दो चरणों में है:

पहला चरण, स्पाइन बॉडी लेयर को हटाएं, पूरे नेटवर्क को समतल करें। सभी लीफ स्विच को विषम और सम संख्या के अनुसार दो समूहों में विभाजित करें, और दोनों समूहों के बीच पूर्णतः परस्पर कनेक्शन स्थापित करें। कोई भी विषम स्विच सभी सम स्विच से जुड़ा होगा और इसके विपरीत। किन्हीं दो GPU के बीच अधिकतम दो स्विच के माध्यम से ही संचार संभव होगा, जिससे हॉप की संख्या 3 से घटकर 2 हो जाएगी।

बड़ा मॉडल

दूसरा कदम, जो सबसे उन्नत बिंदु है: प्रत्येक GPU नेटवर्क कार्ड को दो अलग-अलग तरीकों से दो अलग स्विच समूहों से जोड़ा जाता है। यह विशेष टोपोलॉजी एक महत्वपूर्ण गणितीय गुण लाती है: पूरे नेटवर्क में किन्हीं दो GPU के बीच केवल एक ही आदर्श मार्ग होता है।

बड़ा मॉडल

"एकमात्र मार्ग" सीधे ट्रैफिक जाम के मूल कारण को दूर करता है। पारंपरिक आर्किटेक्चर में हॉटस्पॉट्स का होना इसलिए होता है क्योंकि यहाँ कई मार्ग उपलब्ध होते हैं, और लोड बैलेंसिंग एल्गोरिदम गलत चयन करने पर ट्रैफिक केंद्रित हो जाता है। ZCube ने डिज़ाइन में ही "चयन" की अवधारणा को समाप्त कर दिया है: संतुलन की आवश्यकता नहीं है, क्योंकि यहाँ ही कोई शाखा मार्ग ही नहीं है।

04 एक ही हार्डवेयर कंडीशन में, खाता कैसे लिया जाए?

ज़हुप ने GLM-5.1 उत्पादन क्लस्टर को पारंपरिक ROFT से ZCube पर अपग्रेड करने के बाद तीन संख्याएँ प्राप्त कीं:

सारांश में, एक ही GPU निवेश के साथ, क्लस्टर अधिक उपयोगकर्ताओं की सेवा कर सकता है; एक ही उपयोगकर्ता अनुभव की आवश्यकता के साथ, क्लस्टर नेटवर्क उपकरणों में एक तिहाई कम खरीद सकता है। कुशलता और लागत दोनों में सुधार।

बड़ा मॉडल

विशेष रूप से, थ्रूपुट में 15% की वृद्धि का अर्थ है कि 15% अतिरिक्त कैलकुलेशन क्षमता मुफ्त मिल रही है। GPU की संख्या अपरिवर्तित रखते हुए, थ्रूपुट में 15% की वृद्धि का अर्थ है कि प्रति token औसत हार्डवेयर लागत लगभग 13% कम हो जाती है, या समान लागत पर 15% अधिक उपयोगकर्ताओं की सेवा की जा सकती है।

यदि एक क्लस्टर में 1000 GPU हैं, तो इस अपग्रेड के कारण अचानक 150 कार्ड की क्षमता बढ़ जाती है, जो वर्तमान उच्च-अंत निष्कर्षण कार्ड की बाजार कीमत के अनुसार करोड़ों रुपये के स्तर की गणना क्षमता के बराबर है।

पूंछ देरी 40.6% कम हो गई, जिससे औसत गति के बजाय स्थिरता में सुधार हुआ। एक 50 राउंड कॉल की आवश्यकता वाले एजेंट कार्य के लिए, यदि पूंछ देरी प्रत्येक बार 1 सेकंड कम होती है, तो पूरे कार्य का सर्वाधिक खराब पूरा होने का समय लगभग 1 मिनट तक संकुचित हो जाता है।

लागत में एक तिहाई की कमी, निर्माण स्तर पर सीधा बचत है। ZCube ने Spine स्तर को समाप्त कर दिया है, जिससे समान क्लस्टर आकार के लिए आवश्यक स्विच और ऑप्टिकल मॉड्यूल की संख्या सीधे एक तिहाई कम हो जाती है। ज़ह्पु द्वारा अनुमानित, दस हज़ार GPU क्लस्टर में, केवल इस एक बात से लगभग 2.1 अरब से 6.4 अरब युआन की बचत हो सकती है।

दीर्घकाल में, जैसे-जैसे क्लस्टर का आकार घातीय रूप से बढ़ता है, GPU के बीच संचार की जटिलता कई गुना बढ़ जाती है, जिससे संकुचन की संभावना और प्रभाव भी समानुपातिक रूप से बढ़ जाते हैं। इसका अर्थ है कि ZCube जैसे आर्किटेक्चर-स्तरीय नवाचार का मूल्य, जब तक निष्कर्षण क्लस्टर विस्तारित होता रहेगा, उसके साथ तेजी से स्पष्ट होता जाएगा। कल लाख GPU के क्लस्टर का लाभ आज के 15% से अधिक हो सकता है।

05 अंत में लिखा

जिपु की तकनीकी रिपोर्ट पढ़ने के बाद, मैं सोच रहा हूँ कि क्या यह DeepSeek की तरह उद्योग में एक तूफान ला देगा?

ध्यान से सोचें, दोनों का प्रभाव अलग-अलग पहलुओं पर पड़ता है। जब DeepSeek आया, तो इसने साबित कर दिया कि समान बुद्धिमत्ता को काफी कम कैलकुलेशन शक्ति के साथ प्राप्त किया जा सकता है। बाजार चिंतित हो गया कि "आवश्यक GPU कम हो गए", इसलिए उसी दिन न्यूमाडिया का बाजार मूल्य लगभग 600 अरब डॉलर खो गया।

लेकिन आज ज़हुप का तकनीकी साबित करता है: एक ही कैलकुलेशन क्षमता से अधिक उत्पादन किया जा सकता है। यह "GPU के अलावा, अन्य बुनियादी ढांचा कैसा होना चाहिए" को पुनर्गठित कर रहा है।

छोटे समय के लिए, निविडा को प्रभावित नहीं होगा, लेकिन लंबे समय के लिए, GPU + NVLink इंटरकनेक्ट + InfiniBand नेटवर्क + CUDA सॉफ्टवेयर इकोसिस्टम की रक्षा बढ़ती जा रही है, खासकर निविडा द्वारा 2019 में मेलानॉक्स के अधिग्रहण के लिए 69 अरब डॉलर खर्च करके प्राप्त InfiniBand, जिससे निविडा के नेटवर्क पहलू का प्रीमियम काफी कम हो जाएगा।

इसके अलावा, ZCube ने Spine स्तर को समाप्त कर दिया है, लेकिन इसके परिणामस्वरूप Leaf स्विच के लिए पोर्ट घनत्व की मांग अधिक बढ़ गई है। उन निर्माताओं को लाभ होगा जो उच्च घनत्व और बड़े पोर्ट वाले Leaf स्विच बना सकते हैं (Ruijie, Arista, Broadcom स्विच चिप), जबकि उन निर्माताओं को क्षति होगी जो मुख्य रूप से Spine स्तर के उच्च-अंत स्विच पर निर्भर हैं।

2025 में, सेलेस्टिका और निविडिया मिलकर AI बैकएंड नेटवर्क स्विच के बाजार हिस्से का लगभग 50% कब्जा करेंगे, और यह व्यवस्था ZCube पैराडाइम के फैलने के बाद पुनर्व्यवस्थित होगी।

ऑप्टिकल मॉड्यूल इस लाइन ऑफ़ बिजनेस परिवर्तन में सबसे सीधे लाभान्वित दिशा है, और तर्क बहुत स्पष्ट है। भारतीय ऑप्टिकल मॉड्यूल निर्माताओं (जियांगजी शुचुआंग, टियानफु कम्युनिकेशन्स आदि) के लिए, यह एक संरचनात्मक लाभ है: न केवल कुल मात्रा बढ़ रही है, बल्कि ZCube पैटर्न के तहत उच्च गति ऑप्टिकल मॉड्यूल (800G, 1.6T) की मांग पारंपरिक आर्किटेक्चर की तुलना में अधिक केंद्रित और तत्काल है।

TileRT या ZCube आर्किटेक्चर के बावजूद, यह एक मानक GPU पर चलने वाला शुद्ध सॉफ्टवेयर निष्पादन इंजन है, जो निवेडिया की निजी हार्डवेयर सुविधाओं पर निर्भर नहीं करता है और सिद्धांत रूप से हुआवे के शेंगटेंग जैसे घरेलू चिप्स पर स्थानांतरित किया जा सकता है। यदि यह दिशा सफल हो जाती है, तो घरेलू AI चिप्स के लिए निष्पादन परिदृश्य में सॉफ्टवेयर स्टैक की बाधाएँ काफी कम हो जाएँगी।

यही शायद इस तकनीकी नवाचार के पीछे का बड़ा अर्थ है।