زھیپو AI کا اسٹاک 400 ٹوکن/سیکنڈ API کے شروع کرنے کے بعد 26 فیصد بڑھ گیا

文 | AIDeepDive

آج، "دنیا کا پہلا بڑا ماڈل کمپنی" زہی پی (02513.HK) نے دوبارہ تیزی سے اضافہ کیا۔

در میں اضافہ 30% سے زیادہ ہو گیا۔ بند ہونے پر 1282 ہانگ کانگ ڈالر، پورے دن کا اضافہ 26% سے زیادہ، اور مارکیٹ کی قیمت 5715.7 ارب ہانگ کانگ ڈالر تک پہنچ گئی، جو نئی تاریخی بلندی ہے۔

بڑا ماڈل

اس تیزی کا سبب ایک مخصوص ٹیکنیکل اندیکیٹر تھا: 400 tokens/s۔

22 مئی، ZhiPu نے کاروباری صارفین کے لیے GLM-5.1 ہائی اسپیڈ API (GLM-5.1-highspeed) کا آغاز کیا، جس کا سب سے اہم مرکزی پیرامیٹر صرف ایک ہے: ماڈل کی آؤٹ پٹ رفتار 400 ٹوکن فی سیکنڈ ہے، جو عالمی بڑے ماڈل فراہم کنندگان کے API کی رفتار کی حد کو نئی سرحد تک پہنچاتا ہے۔

میں اسے صرف ایک چینی بڑے ماڈل کا پبلک ریلیشنز کا جھوٹ سمجھ رہا تھا، لیکن ٹیکنیکل تفصیلات کو دیکھ کر میں نے سرمایہ کاری کے پیچھے کے منطق کو سمجھ لیا۔

400 ٹوکنز/سیکنڈ کا کیا مطلب ہے؟

ماڈل فی سیکنڈ تقریباً 200 حروف تولید کر سکتا ہے، جو ایک پیشہ ور مصنف کی ایک منٹ کی شدید پیداوار کو ایک سیکنڈ میں دبایا گیا ہے۔

ایک مصنف کے لیے کئی دن تک لگاتار کام کرنے کے بعد لکھنے کے قابل متن کو، GLM-5.1 ہائی اسپیڈ ورژن صرف ایک منٹ میں مکمل کر دیتا ہے؛ ایک انجینئر جو تین دن تک محنت کر کے سسٹم کی دوبارہ تعمیر کرتا ہے، اس کا کام اس کے ایک کافی پینے کے دوران مکمل ہو جاتا ہے۔

01 رفتار، جتنا تم سوچتے ہو اس سے زیادہ اہم ہے

گزشتہ وقت سے، AI ماڈلز کی مقابلہ میں سب سے زیادہ نظرانداز کی جانے والی اہمیت ہے۔

گزشتہ تین سالوں میں بڑے ماڈلز کی مسلح مقابلہ دو راستوں پر مرکوز رہا: پیرامیٹر سائز (ماڈل بڑا اور زیادہ ذکی) اور قیمت کی جنگ (ٹوکن سستے اور زیادہ عام)۔ "تیزی" کبھی مرکزی کردار نہیں رہی۔

کیونکہ گزشتہ “تیز” کو عام طور پر مدل کے پیرامیٹرز کو کم کرکے حاصل کیا جاتا تھا۔ تیزی لانے کے لیے، آپ کو چھوٹا اور زیادہ سادہ مدل استعمال کرنا پڑتا تھا، جس کی قیمت یہ تھی کہ صلاحیتیں کم ہو جاتیں۔

GLM-5.1 ہائی اسپیڈ ورژن کا یہ اہم مقصد یہ ہے کہ یہ اپنی فل سائز بیس کی صلاحیت کو برقرار رکھتے ہوئے رفتار کو 400 ٹوکنز/سیکنڈ تک پہنچا دیتا ہے۔

ممالکی ماڈلز کے لحاظ سے یا بین الاقوامی سطح پر، "فلاگش کی صلاحیت" اور "بہترین کم تاخیر" کو پہلی بار مکمل طور پر برقرار رکھا گیا ہے۔

بڑا ماڈل

کیوں رفتار اتنی اہم ہے؟ کیونکہ AI کا مرکزی میدان بنیادی طور پر منتقل ہو رہا ہے۔

jab AI chatbot se agent کے دور میں داخل ہوتا ہے، تو سوال و جواب AI کا اہم سناریو نہیں رہ جاتا، اور ایک ایجنٹ کو ایک کام مکمل کرنے کے لیے اکثر ماڈل کو دہریوں یا سووں سیشن تک خود کو بلانا پڑتا ہے: کوڈ لکھنا، انٹرفیس کا استعمال کرنا، معلومات تلاش کرنا، ٹولز کا استعمال کرنا…

اس کام کے انداز میں، ہر کال کے درمیان کی تاخیر بے رحمی سے جمع ہو کر بڑھتی جاتی ہے۔ ایک ایسا کام جس میں 50 کالز درکار ہوں، اگر ہر کال میں ایک سیکنڈ بچایا جائے تو پورا کام تقریباً ایک منٹ آگے نکل جائے گا۔ AI پروگرامنگ اسسٹنٹس، آواز میں تعامل، اور تجارتی فیصلہ سازی کے نظاموں کے لیے یہ فرق زندگی اور موت کا فرق ہو سکتا ہے۔

گہرائی سے، محدود وقت کے بجٹ کے اندر تیز رفتار استدلال کا مطلب ہے کہ ماڈل گہرے استدلال کے راستوں اور زیادہ راؤنڈز کی خود تصدیق مکمل کر سکتا ہے۔ رفتار، اب نظام کے اشارے سے ہٹ کر ذہانت کی اپنی حد بن رہی ہے۔

02 اس بات کی تیزی کتنی مشکل ہے؟

اب صنعت میں رفتار کا کیا سطح ہے؟

ہیڈ فیکٹریز میں، OpenAI کا GPT-4o تقریباً 100–150 ٹوکنز/سیکنڈ پر ہے، Anthropic کا Claude Sonnet سیریز تقریباً 80–120 ٹوکنز/سیکنڈ پر ہے، اور ملکی مقبول فلگشپ ماڈلز کے API زیادہ تر 50–100 ٹوکنز/سیکنڈ کے دائرے میں ہیں۔ 400 ٹوکنز/سیکنڈ تقریباً صنعت کے اوسط سطح کا 3 سے 5 گنا ہے۔

زیادہ اہم بات یہ ہے کہ یہ فرق زیادہ کمپوٹنگ پاور لگانے سے پُر نہیں کیا جا سکتا۔

8 H200 گرافک کارڈ والی سرور، نظری طور پر فی سیکنڈ تک 38 ٹی بی ڈیٹا منتقل کر سکتی ہے۔ GLM-5.1 کے لیے، ایک ٹوکن کو جنریٹ کرنے کے لیے تقریباً 42 جی بی ایکٹیویشن پیرامیٹرز پڑھنے کی ضرورت ہوتی ہے، صرف نظری طور پر، یہ تقریباً 1000 ٹوکن/سیکنڈ تک پہنچ سکتا ہے۔

لیکن عملی نظام عام طور پر صرف کئی دہاٸی ٹوکن فی سیکنڈ چلا سکتے ہیں۔

بڑا ماڈل

یہ ایک درجہ کا فرق ہے۔ GPU کافی تیز نہیں ہے، بلکہ بہت سا وقت انتظار، خالی چلنے اور بے فائدہ شیڈولنگ پر ضائع ہو رہا ہے۔

ZhiPu نے اس بار ترتیب، متوازی حکمت عملی، اور نیٹ ورک آرکیٹیکچر کے تینوں پہلوؤں پر ایک ساتھ نوآوری کی ہے، جس سے آخری رفتار میں کامیابی حاصل ہوئی۔

بڑا ماڈل

03 تین سطحی ٹیکنالوجی کا مجموعہ، ہارڈویئر کی فزیکل حد کے قریب پہنچ رہا ہے

بڑے ماڈل اس طرح کام کرتے ہیں: بڑے ماڈل کو الگ الگ آپریٹرز میں تقسیم کر دیا جاتا ہے، جہاں ہر آپریٹر ایک الگ کرنل شروع کرتا ہے، حساب لگانے کے بعد روک دیا جاتا ہے، مزید کرنل کے لیے مطابقت کا انتظار کیا جاتا ہے، اور پھر اگلا شروع ہوتا ہے۔

ٹریننگ کے دوران، ہر کمپیوٹیشن کے لیے کئی سیکنڈ یا کئی منٹ لگ سکتے ہیں، جس کی شروعات اور انتظار کی لاگت بالکل نظرانداز کی جا سکتی ہے۔ لیکن استدلال کے دوران، ایک ٹوکن کو صرف ایک بار جنریٹ کرنے پر، کسی اہم مرحلے کو صرف کچھ دہائیوں مائیکرو سیکنڈ لگ سکتے ہیں، جس صورت میں شروعات اور انتظار کی لاگت نسبتاً نظرانداز نہیں کی جا سکتی۔

TileRT کا مرکزی خیال: پورے ماڈل کو ایک لگاتار چلنے والے انجن میں کمپائل کرنا، ایک بار شروع کریں، کبھی بند نہ کریں۔

TileRT کوڈ کے کمپائلیشن مرحلے میں مدل کے تمام کمپیوٹیشنل منطق کو ایک مسلسل پائپ لائن میں سٹیٹک طور پر ایکسپینڈ کرتا ہے، جس سے رن ٹائم پر GPU ہمیشہ ہائی اسپیڈ پر چلتا رہتا ہے، کمپیوٹیشن، ڈیٹا منتقلی اور کمیونیکیشن متوازی طور پر آگے بڑھتے ہیں، اور درمیانی نتائج کو زیادہ سے زیادہ GPU کے اندر ہائی اسپیڈ کیش میں رکھا جاتا ہے، تاکہ انہیں دوبارہ سستی گرافکس میموری میں لکھنا اور دوبارہ پڑھنا نہ پڑے۔

بڑا ماڈل

ایک اہم ڈیزائن ڈیٹیل ہے: وارپ تخصص۔

واپر کو سمجھنے کے لیے، آپ کو GPU کے کام کرنے کے طریقے کو سمجھنا ہوگا۔ GPU اور CPU کے درمیان بڑا فرق یہ ہے کہ اس کے اندر ہزاروں نسبتاً سادہ کمپوٹیشنل یونٹس ہوتے ہیں جو 32 کے گروپوں میں بندھے ہوتے ہیں، اور ان گروپس کو واپر کہتے ہیں۔

ایک ہی وارپ میں 32 یونٹس ہمیشہ ایک ساتھ ایک ہی حکم کو نفاذ کرتے ہیں، جیسے فوج میں ایک کلاس جس میں سرکار دستور دیتا ہے کہ سب ایک ساتھ ایک ہی حرکت کریں۔

روایتی فریم ورک میں، تمام وارپ ایک ہی حکم ترتیب کو نفاذ کرتے ہیں؛ ٹائل آر ٹی مختلف وارپ گروہوں کو مختلف ذمہ داریاں دیتا ہے: ایک گروہ صرف اگلی سیریز ڈیٹا کو پہلے سے لانے کے لیے، ایک گروہ صرف ریاضی کے حسابات کے لیے، اور ایک گروہ صرف دوسرے جی پی یو کے ساتھ رابطہ کرنے کے لیے۔ تینوں گروہ ایک ساتھ کام کرتے ہیں، لائن میں مل کر، ایک دوسرے کا انتظار نہیں کرتے۔

جیسے ایک مزدور کے پاس ایک ساتھ ایک گز، دیوار بنانا اور جانچ کرنا تھا، اب گز لے جانے والے، دیوار بنانے والے اور جانچنے والے گروہ одно وقت کام کر رہے ہیں۔

ایک کارڈ کی اندر کی کارکردگی حل ہو گئی، لیکن متعدد کارڈز کی متوازی عملگی میں نئی چیلنجز پیدا ہو گئیں۔

صنعتی معیار کے مطابق ٹینسر پیرلیل ہے: ماڈل کے وزن میٹرکس کو کئی حصوں میں تقسیم کیا جاتا ہے، جہاں ہر GPU ایک حصہ سنبھالتا ہے، اور پھر نتائج کو اعلیٰ رفتار انٹرکنیکشن (NVLink) کے ذریعے مجموعی کیا جاتا ہے۔

یہ منصوبہ میٹرکس ضرب جیسے منظم، مکثف حسابات کے لیے بہت اچھا کام کرتا ہے اور موجودہ تمام بڑے ماڈل انفرنس فریم ورکس کا معیاری متعدد کارڈ حل ہے۔

GLM-5.1 **MLA (Multi-head Latent Attention)** استعمال کرتا ہے، جو DeepSeek نے تیار کیا گیا ایک توجہ کا طریقہ ہے۔

سنتی توجہ کے طریقہ کار کو ہر مرحلے پر حاصل ہونے والے بہت سارے درمیانی ڈیٹا (KV Cache) کو مکمل طور پر محفوظ رکھنا پڑتا ہے، جس سے گرافکس میموری زیادہ استعمال ہوتی ہے؛ MLA کا طریقہ یہ ہے کہ وہ درمیانی ڈیٹا کو ایک مختصر "لیٹنٹ ویکٹر" میں دبایا جاتا ہے اور محفوظ کر لیا جاتا ہے، جب ضرورت ہو تو اسے دوبارہ پھیلایا جاتا ہے، جس سے گرافکس میموری کی ضرورت میں کافی کمی آتی ہے اور استدلال کی کارکردگی بہتر ہوتی ہے۔

لیکن MLA کے حساب کی پروسیجر میں ایک خاص مرحلہ ہے: بڑی مقدار میں تاریخی معلومات سے اسپارس انڈیکس بنانا ہے: جیسے ایک بہت بڑی لائبریری میں سب سے متعلقہ کچھ کتابوں کو جلدی سے نکال لیں، پھر ان کتابوں کو تفصیل سے پڑھیں۔

"کتاب تلاش کرنا" کا مرحلہ عالمی معلومات پر منحصر ہے اور اسے متعدد کارڈز پر تقسیم کرنے کے لیے مناسب نہیں ہے؛ "گہرائی سے پڑھنا" ہی متعدد کارڈز پر موازی حساب کتاب کے لیے مناسب ہے۔ اگر آپ تمام 8 جی پی یو کو "کتاب تلاش کرنے" میں ملوائیں تو زیادہ تر وقت جی پی یو کے درمیان مطابقت اور مواصلات پر ضائع ہو جائے گا۔

TileRT کا حل GPU کو غیر ہمجہ طور پر چلانا ہے: GPU 0 صرف "لائبریری ریٹریو اسٹ" کے طور پر کام کرتا ہے، جو کمیتی انڈیکس اور راؤٹنگ فیصلوں کا ذمہ دار ہے؛ GPU 1–7 "گہری تجزیہ کرنے والے" کے طور پر کام کرتے ہیں، جو مکمل توجہ کے حسابات اور میٹرکس آپریشنز کا ذمہ دار ہیں۔ دونوں قسم کے ملازمین اپنے اپنے لیے سب سے مناسب متوازی حکمت عملیوں کا استعمال کرتے ہوئے پورے کمپوٹیشن لیئر کو مل کر مکمل کرتے ہیں۔

بڑا ماڈل

اگلے مرحلے میں، TileRT نے GPU کے درمیان مواصلات کے عمل کو بھی براہ راست اجرائی لائن میں ڈال دیا، جسے الگ مرحلہ نہیں سمجھا جاتا۔ باہر سے دیکھنے پر، پورے 8 گرافکس کارڈ سسٹم کو ایک توجہ کی لیئر کی حسابگاری مکمل کرنے کے لیے صرف ایک بار کرنل شروع کرنے کی ضرورت ہوتی ہے، اور اندر کی مواصلات اور حسابگاری مسلسل لائن میں بے خود مکمل ہوتی ہیں۔

اوپر کے دو لیورز ایک ہی مشین کے دائرے میں مسائل کو حل کرتے ہیں۔ جب کلัสٹر کو سینکڑوں یا ہزاروں GPU تک بڑھایا جاتا ہے، تو GPU کے درمیان ڈیٹا کا تبادلہ خود ہی نئی حد بن جاتا ہے۔

صنعتی معیار ROFT (Rail-Optimized Fat-Tree) ہے، جو NVIDIA کی طرف سے تجویز کیا گیا ہے اور صنعت کا مکمل معیار ہے۔

اس کی ساخت درخت کی شکل میں ہے: سرور پہلے لیف سوئچ (ایکسیس لیورل، سرور کی طرف متوجہ) سے جُڑتا ہے، اور لیف سوئچ اوپر کی طرف اسپائن سوئچ (کور لیورل، مختلف لیفز کے درمیان کنکشن کا ذمہ دار، جیسے ہائی وے ہب) سے جُڑتا ہے۔ دو GPU کے درمیان ڈیٹا کا انتقال "سب سے پہلے اسپائن تک جانا پڑتا ہے، پھر مقصد لیف تک نیچے آنا پڑتا ہے"، جس میں کم از کم 3 ہاپ لگتے ہیں۔

کم سے کم لینکس پر ٹریفک کو مرکوز ہونے سے بچنے کے لیے، یہ ساخت ECMP الگورتھم کا استعمال کرتی ہے تاکہ ڈیٹا کو متعدد راستوں کے درمیان تقسیم کیا جا سکے، جو انٹرنیٹ ٹریفک کے "احصائی طور پر یکساں" ہونے کی پیش گوئی کے تحت اچھی طرح سے کام کرتی ہے۔

لیکن استدلال کے مناظر میں ٹریفک بالکل ایک سطح نہیں ہے۔ مختلف درخواستوں کی سیاق و سباق کی لمبائی میں دہائیوں کا فرق ہو سکتا ہے، GPU کے درمیان KV Cache کے ٹرانسمیشن کا رخ تقریباً تصادفی ہوتا ہے، کچھ Leaf سوئچز دوران دوران ہٹس بن جاتے ہیں، جو ری بیک پریشر میکنزم کو فعال کر دیتے ہیں اور اس طرح گھٹنے کو مقامی سے پورے لینک تک پھیلا دیتے ہیں۔ یہ گھٹنا پروٹوکول کے پیرامیٹرز کو ترتیب دے کر حل نہیں ہو سکتی، یہ ٹاپولوجی کی خود بخودی پیداوار ہے۔

بڑا ماڈل

زیکیوب کا بنیادی انقلاب: اس قسم کی گھنٹی کو مکانی طور پر نہ ہونے دینا۔

مرکزی ڈیزائن دو مراحل پر مشتمل ہے:

مرحلہ اول: اسپائن ہڈی کو ختم کریں، پورے نیٹ ورک کو فلیٹ کریں۔ تمام لیف سوئچز کو طاق اور جفت نمبروں کے لحاظ سے دو گروہوں میں تقسیم کریں، اور دونوں گروہوں کے درمیان مکمل طور پر جڑیں۔ کوئی بھی طاق سوئچ تمام جفت سوئچز سے جڑا ہوگا، اور اس کے برعکس بھی۔ کسی بھی دو GPU کے درمیان زیادہ سے زیادہ دو سوئچز کے ذریعے ہی رابطہ ممکن ہوگا، جس سے ہاپس کی تعداد 3 سے گھٹا کر 2 پر لائی جائے گی۔

بڑا ماڈل

دوسرا مرحلہ، جو سب سے زیادہ مہارت والا ہے: ہر GPU نیٹ ورک کارڈ کو دو الگ الگ سوئچ گروپس میں دو مکمل طور پر مختلف طریقوں سے جوڑا جاتا ہے۔ اس خاص ٹوپولوجی سے ایک اہم ریاضیاتی خصوصیت حاصل ہوتی ہے: پورے نیٹ ورک میں کسی بھی دو GPU کے درمیان صرف ایک ہی بہترین راستہ ہوتا ہے۔

بڑا ماڈل

"صرف ایک راستہ" ٹریفک جم کی جڑ کو ختم کر دیتا ہے۔ روایتی اسکیم میں ہاٹسپاٹس کا مسئلہ اس لیے ہوتا ہے کہ کئی راستے دستیاب ہوتے ہیں، اور اگر لوڈ بیلنسنگ الگورتھم غلط ہو جائے تو ٹریفک اکٹھا ہو جاتا ہے۔ ZCube کے ڈیزائن میں "انتخاب" کا خود ہی خاتمہ کر دیا گیا ہے: برابر تقسیم کی ضرورت نہیں، کیونکہ کوئی شاخیں ہی نہیں۔

04 ایک جیسے ہارڈویئر کے تحت، اکاؤنٹنگ کیسے کی جائے؟

زی پو نے GLM-5.1 پروڈکشن کلسٹر کو روٹ فٹ سے زی کیوب میں اپ گریڈ کرنے کے بعد تین اعداد حاصل کیے:

خلاصہ کے طور پر، ایک جیسے GPU کے انvestments کے ساتھ، کلستر زیادہ صارفین کو سروس دے سکتا ہے؛ ایک جیسی صارف تجربہ کی ضروریات کے ساتھ، کلستر نیٹ ورک ڈیوائسز میں تینویں حصہ کم خرید سکتا ہے۔ کارکردگی اور لاگت دونوں میں بہتری۔

بڑا ماڈل

خاص طور پر، 15% تھروٹل میں اضافہ، 15% مفت کیلئے زیادہ کمپوٹنگ پاور کے برابر ہے۔ جب GPU کی تعداد مستقل رہے، تو 15% زیادہ تھروٹل، ہر ٹوکن کی اوسط ہارڈویئر لاگت میں تقریباً 13% کمی کے برابر ہے، یا اسی لاگت پر 15% زیادہ صارفین کو سروس فراہم کیا جا سکتا ہے۔

اگر ایک کلستر میں 1000 جی پی یو ہوں، تو اس اپگریڈ کے ذریعے ایسے ہی 150 کارڈز کی پیداوار شامل ہو جائے گی، جو موجودہ اعلیٰ سطح کے ریزنگ کارڈز کی قیمت کے مطابق کروڑوں یا اربوں ڈالر کی حسابی قیمت ہے۔

ٹیل لیٹنس میں 40.6% کی کمی آئی، جس سے اوسط رفتار کے بجائے استحکام بہتر ہوا۔ ایک ایسے ایجنٹ کا کام جس میں 50 راؤنڈ کالز درکار ہوں، اگر ہر ٹیل لیٹنس میں 1 سیکنڈ کی کمی آئے، تو پورے کام کا بدترین مکمل ہونے کا وقت تقریباً ایک منٹ تک کم ہو جاتا ہے۔

لاگت ایک تہائی کم ہو گئی، جو تعمیر کے لحاظ سے ب без تک بچت ہے۔ ZCube نے Spine لیئر ختم کر دیا، جس سے ایک جیسے کلัสٹر سائز کے لیے درکار سوئچز اور آپٹیکل مڈیولز کی تعداد براہ راست ایک تہائی کم ہو گئی۔ زھی پُو کے مطابق، 10,000 کارڈ کلัสٹر میں، صرف اس ایک چیز سے 210 ملین سے 640 ملین یوان تک کی بچت ممکن ہے۔

لمدت طویل، جب کلستر کا سائز اسی طرح تیزی سے بڑھتا ہے، GPU کے درمیان مواصلات کی پیچیدگی کئی گنا بڑھ جاتی ہے، اور اس کے نتیجے میں انسداد کی احتمال اور اثرات بھی متناسب طور پر بڑھ جاتے ہیں۔ اس کا مطلب ہے کہ ZCube جیسی آرکیٹیکچرل انویشن کی قیمت، جب تک ریزننگ کلستر بڑھتے رہیں، وہ تیزی سے ظاہر ہوتی جائے گی۔ کل ون ٹین ہزار GPU کلستر کا فائدہ آج کے 15% سے زیادہ ہو سکتا ہے۔

05 آخر میں لکھا گیا

زیپو کی ٹیکنیکل رپورٹ پڑھنے کے بعد، میں سوچ رہا ہوں کہ کیا یہ DeepSeek کی طرح صنعت میں ایک طوفان لے کر آئے گا؟

غور کریں تو، دونوں کے اثرات مختلف پہلوؤں میں نظر آتے ہیں۔ جب DeepSeek آیا، تو اس نے ثابت کیا کہ اتنی ہی ذہانت کو بہت کم کمپوٹیشنل طاقت سے حاصل کیا جا سکتا ہے۔ بازار کو خوف تھا کہ "کم GPU کی ضرورت ہوگی"، اس لیے اسی دن نوویدا کی بارش مارکیٹ ویلیو تقریباً 600 ارب امریکی ڈالر کم ہو گئی۔

لیکن آج زھی پو کی ٹیکنالوجی ثابت کرتی ہے: اسی کمپوٹیشنل پاور کے ساتھ، زیادہ پیداوار ممکن ہے۔ یہ "GPU کے علاوہ، دیگر بنیادی ڈھانچہ کیسے دکھائی دے" کو دوبارہ تعمیر کر رہا ہے۔

مختصر مدت کے لیے، نوڈیا کو کوئی اثر نہیں پڑے گا، لیکن طویل مدت کے لیے، GPU + NVLink انٹرکنیکشن + InfiniBand نیٹ ورک + CUDA سافٹ ویئر ایکوسسٹم کا دفاعی دیوار "کھودا" جا رہا ہے، خاص طور پر نوڈیا کی 2019 میں Mellanox کو 69 ارب ڈالر میں خریدنے سے حاصل کیا گیا InfiniBand، جس سے نوڈیا کے نیٹ ورک سائیڈ کا پریمیم کافی حد تک کم ہو جائے گا۔

اس کے علاوہ، ZCube نے Spine لیئر کو ختم کر دیا، لیکن اس نے Leaf سوئچز کے لیے پورٹ ڈینسٹی کی درخواست بڑھا دی۔ اس سے اعلیٰ ڈینسٹی، بڑے پورٹ والے Leaf سوئچز بنانے والے فرماں (Ruijie، Arista، Broadcom سوئچ چپس) فائدہ اٹھاتے ہیں، جبکہ اعلیٰ درجے کے Spine سوئچز پر انحصار کرکے پریمیم کمانے والے فرماں نقصان اٹھاتے ہیں۔

2025 میں، سیلیسیکا اور نوڈیا مل کر AI بیک اینڈ نیٹ ورک سوئچ کے بازار کا تقریباً 50 فیصد حصہ رکھتے ہیں، جس کا ڈھانچہ ZCube پیرادائم کے پھیلاؤ کے بعد دوبارہ ترتیب دیا جائے گا۔

آج کے سپلائی چین کے تبدیلی میں سب سے براہ راست فائدہ مند شعبہ فوٹونک موڈیول ہے، جس کا منطق بہت واضح ہے۔ چینی فوٹونک موڈیول فرماوں (جیسے Zhongji Xuchuang، Tianfu Communications وغیرہ) کے لیے یہ ایک ساختی فائدہ ہے: نہ صرف کل مقدار بڑھ رہی ہے، بلکہ ZCube پیرادائم کے تحت ہائی اسپیڈ فوٹونک موڈیولز (800G، 1.6T) کی مانگ بھی روایتی ارکان کے مقابلے میں زیادہ مرکوز اور فوری ہے۔

TileRT یا ZCube آرکیٹیکچر کے متعلق، یہ ایک صرف سافٹ ویئر انفرنس انجن ہے جو معیاری GPU پر چلتا ہے اور NVIDIA کی ملکیت والی ہارڈ ویئر خصوصیات پر منحصر نہیں ہے، جس کا نظریاتی طور پر Huawei Ascend جیسے گھریلو چپس پر منتقل کیا جا سکتا ہے۔ اگر یہ راستہ کامیاب ہو جائے تو گھریلو AI چپس کے لیے انفرنس سیناریوز میں سافٹ ویئر اسٹیک کی رکاوٹ کو کافی حد تک کم کر دیا جائے گا۔

شاید یہی اس ٹیکنالوجی کے ایجاد کے پیچھے بڑا مطلب ہے۔