AI کمپیوٹ سپلائی چین کی رکاوٹیں جی پی یو سے بجلی اور ٹھنڈا کرنے کی طرف منتقل ہو رہی ہیں

لکھنے والہ: qinbafrank

فروری میں، "اس سرمایہ کی خرچ کی جنگ کا کیا مطلب ہے؟" میں، ہم نے بات کی تھی کہ کمپیوٹنگ پاور سپلائی چین کے اہم اجزاء جیسے چپس، پیکیجنگ اور ٹیسٹنگ، اسٹوریج، اور آپٹیکل مڈیولز جیسے علاقوں میں اب بھی سب سے زیادہ قیمت حاصل ہو رہی ہے: جن کی پیداوار تیزی سے نہیں بڑھائی جا سکتی، اور جن کے پاس بہت زیادہ محفوظ رکاوٹیں ہیں، وہ بڑے سرمایہ کی خرچ کے فوائد کا لطف اٹھائیں گے؛

ابھی بھی کافی کارکردگی میں بہتری کا امکان ہے: انفریئرنگ اینڈ پر ڈسٹلیشن، کوانتائزیشن، MoE، مخصوص چپس، لیکوڈ کولنگ، اور فیوژن (طویل مدتی) جیسے طریقے واحد کمپوٹیشنل پاور کی توانائی اور لاگت کو 10 سے 100 گنا کم کر سکتے ہیں۔ ان اجزاء میں مواقع تلاش کریں۔

ہالیوڈ، جی پی ایس، ایم بی اے، گولڈمن سیکس، یو ایس بی، سیٹی، برنسٹائن، اور ایچ ایس بی سی سمیت کئی سرمایہ کاری بینکوں نے AI/سیمی کنڈکٹر/بجلی/اسٹوریج سے متعلق تازہ ترین رپورٹس جاری کی ہیں، جس میں AI ہارڈویئر کی پابندیاں اب صرف "GPU کی فراہمی" کے ایک منفرد پہلو سے گزر کر بجلی، چپ، اسٹوریج، ڈیوائسز، اور مواد کے پانچ پہلوؤں تک پھیل چکی ہیں۔

AI کی مانگ کی سطح نے روایتی بجلی کی منصوبہ بندی، سیمی کنڈکٹر ڈیوائسز کی پیداواری صلاحیت، اسٹوریج قیمت کے ماڈلز، اور روبوٹس کی نصب کی فرضیات کے تمام تخمنوں کو عبور کر لیا ہے۔

مورگن اسٹینلی کی عالمی تھیم ریسرچ کے جائزے میں بتایا گیا ہے کہ عالمی ہفتہ وار بڑے زبان ماڈل کے ٹوکن استعمال میں تین ماہ میں 6.4 ٹریلین سے بڑھ کر 22.7 ٹریلین ہو گیا، جس میں 2.5 گنا اضافہ ہوا، اور امریکہ میں 2025-28 کے درمیان ڈیٹا سینٹر کے بجلی کا فرق 55 گیگاواٹ ہے؛ جے پی مورگن کے ڈیٹا سینٹر کے پرفارمنس کمپوٹنگ پروجیکٹس کے لیے جاری کردہ پہلی بار کے تجزیے میں "اگلے پانچ سالوں میں 122 گیگاواٹ فنڈنگ کی ضرورت" کا اندازہ لگایا گیا ہے، امریکہ کا پانچ سالہ بجلی منصوبہ بندی 101 گیگاواٹ سے بڑھ کر 230 گیگاواٹ ہو گیا، اور نئے پروجیکٹس کے 44 فیصد کا گرڈ میں شامل ہونے میں 4 سال سے زائد وقت لگ رہا ہے؛ بینک آف امریکا کی ایلفابیٹ کے لیے جاری کردہ نئے مقصد قیمت رپورٹ میں، 2026 کے لیے سرمایہ کاری خرچ کو براہ راست 1815 ارب امریکی ڈالر تک بڑھا دیا گیا ہے، جو پچھلے سال کے مقابلے میں دوگنا ہے، جبکہ آزاد نقد بہاؤ میں 62 فیصد کمی آئی۔ یہ تینوں اعداد و شمار ایک ہی فریم ورک کے نتائج نہیں بلکہ تین الگ الگ اداروں کے مختلف تحقیقی راستوں پر انحصار کرتے ہوئے الگ الگ تصویر پیدا کرتے ہیں۔

سیمی کنڈکٹر سپلائی چین (خاص طور پر AI کمپوٹیشن کے شعبے میں) کی پابندیوں کا ترقیاتی تسلسل واضح طور پر “کمپوٹیشن (GPU) → اسٹوریج (HBM وغیرہ) → آپٹیکل انٹرکنیکشن → بجلی/لیکوڈ کولنگ” کے ترتیب میں ہوا ہے۔ یہ 2025-2026 کا صنعتی اتفاق رائے ہے، جب AI ٹریننگ/انفرنس کلسٹرز ایک سینٹر (دوزون GPU) سے لے کر انتہائی بڑے پیمانے (ہزاروں سے لاکھوں GPU) تک وسعت پذیر ہوتے ہیں، تو ہر ایک پابندی کو حل کرنے کے بعد، اگلی فزیکل/سپلائی چین کی پابندی فوراً سامنے آ جاتی ہے، جس سے “لیونٹف” قسم کی مکمل متبادل پابندیاں بن جاتی ہیں (ایک بھی غائب ہو تو شipment نہیں ہو سکتی)۔

لائٹ میکول

اس تبدیلی کی وجوہات، موجودہ حالت اور اس کے پیچھے کے فزیکل/انجینئرنگ وجوہات سمجھنا ضروری ہے:

1. پہلا مرحلہ کی بند راستہ: GPU کمپیوٹنگ (2022-2024 کا主导) مرکزی پابندی:

اچھی کوالٹی کے جی پی یو (جیسے NVIDIA Hopper H100 → Blackwell B200 → Rubin) کی اپنی ویفر پیداوار + ایڈوانسڈ پیکیجنگ۔

瓶颈 کیوں؟ AI بڑے ماڈلز کو بہت زیادہ متوازی کمپوٹیشن کی ضرورت ہوتی ہے، جس کی وجہ سے TSMC کے 4nm/3nm/2nm منطقی پروسیسز اور CoWoS (2.5D/3D پیکیجنگ) کی پیداوار ایک بڑی رکاوٹ بن گئی۔ اگرچہ فرانت اینڈ وافل کافی ہوں، لیکن اگر بیک اینڈ منطقی چپس اور HBM کو اکٹھا پیک کرنے کی صلاحیت پیچھے رہ جائے، تو پورا GPU نہیں بن سکتا۔

حالت کو کم کرنا: TSMC نے CoWoS کی پیداوار (2024-2025 میں دگنا) میں بڑی حد تک اضافہ کیا ہے، NVIDIA Blackwell کو بڑے پیمانے پر بھیج دیا گیا ہے۔ لیکن یہ صرف "کمپیوٹنگ" کے مرحلے کو کھولنا ہے، جس کے فوراً بعد نئے مسائل سامنے آتے ہیں۔

2. دوسرے مرحلے کا بند راستہ: ذخیرہ سازی (HBM ہائی بینڈ ویت میموری، 2024-2025 تک سب سے زیادہ کمی والی)

مرکزی پابندی: HBM3/HBM3e/HBM4 کی پیداواری صلاحیت۔

کیوں ریلے بالاک بن گیا: GPU کی کمپوٹیشنل طاقت بڑھ گئی، لیکن ماڈل کے پیرامیٹرز میں دہشت انگیز اضافہ ہوا (تریلین یا دس تریلین پیرامیٹرز)، اور ڈیٹا منتقلی (میموری بینڈ وڈتھ) "میموری وال" بن گئی۔ HBM فی سیکنڈ کئی TB ڈیٹا منتقل کر سکتا ہے، جو عام DDR میموری سے 20 گنا زیادہ تیز ہے۔ چونکہ HBM منطقی چپ کے قریب واقع ہوتا ہے، اس لیے ڈیٹا کو لمبی دوری تک منتقل نہیں کرنا پڑتا، جس سے توانائی کی بچت ہوتی ہے۔

ایک B200 GPU کو 192GB+ HBM3e درکار ہے، ایک سرور کابینہ (NVL72) میں HBM کی کل مقدار 30-40TB تک پہنچ چکی ہے، اور بینڈ ویت کی ضرورت روایتی DRAM سے کہیں زیادہ ہے۔

سپلائی چین کی موجودہ صورت: صرف ایس کے ہائی لیس، سامسنگ، اور میکرون تین کمپنیاں HBM کا بڑے پیمانے پر پیداوار کر سکتی ہیں، جس کا عمل پیچیدہ ہے (سیلکون تھرو سلک TSV + اسٹیکنگ)، 2025 کا سارا اینوٹر چکا چھوڑ دیا گیا ہے، اور 2026 میں بھی مانگ زیادہ ہوگی، جس کی قیمت میں 246 فیصد کا اضافہ ہوا ہے۔ یہاں تک کہ اگر GPU چپ تیار ہو جائے، تو HBM کے بغیر اس کی اسمبلی اور تحویل نہیں ہو سکتی، جس سے پورے AI کلัสٹر کی تنصیب میں تاخیر ہوتی ہے۔

نتیجہ: ذخیرہ سازی "مصنوعات" سے تکنیکی طور پر حساس اہمیت کا حامل مرحلہ بن گئی ہے، اور سرمایہ کاری میں ذخیرہ سازی کا حصہ 30 فیصد تک ہو سکتا ہے۔

3. تیسرے مرحلے کا بند راستہ: آپٹیکل انٹرکنیکشن (2025-2026 میں منتقلی کے تحت)

مرکزی پابندی: کاپر کیبل (NVLink/NVSwitch) کی بینڈ ویتھ، فاصلہ، طاقت کے استعمال، اور وزن میں فزیکل حدود۔

کیوں ضروری طور پر روشنی کی طرف منتقل ہونا پڑے گا: ایک ہی کیبنٹ میں (72 GPU) تک کاپر کیبلز کام کر سکتے ہیں، لیکن جب آپ اسے متعدد کیبنٹس، یا ہزاروں GPU کے درمیان جوڑنے کی کوشش کرتے ہیں تو، کاپر کیبلز میں شدید衰減 ہوتا ہے (1.8TB/s بینڈ ویتھ پر موثر فاصلہ <1 میٹر)، وزن بہت زیادہ ہو جاتا ہے (NVL72 کیبنٹ میں کاپر کیبلز 5,000 سے زائد، کل وزن 1.36 ٹن)، اور بجلی کا استعمال زیادہ ہوتا ہے (قابل تبدیل روشنی ماڈیولز کا استعمال کرنا کاپر کیبلز کے متبادل کے طور پر مزید 20,000 واٹ بجلی کھاتے ہیں)۔ سگنل انٹگرٹی، لیٹنسی، اور گرمی کا انتظام بڑے کلسٹرز کے لیے نہیں چل سکتا۔

حل: لائٹ انٹرکنیکٹ (CPO کو-پیکیجڈ آپٹیکل + سلیکون فوٹونکس ٹیکنالوجی) کی طرف منتقل ہو جائیں۔ لائٹ انجن کو GPU/ASIC کے بالکل پاس پیکیج کریں، Scale-Out کے لیے فائبر آپٹیکس استعمال کریں، جس سے بینڈ ویتھ ڈینسٹی زیادہ، ہر بٹ کی طاقت کم اور فاصلہ زیادہ ہوگا۔

لائٹ میکول

NVIDIA نے 2026ء کے GTC پر بڑی سرمایہ کاری کی ہے، اور اس نے آپٹیکل کمپنیوں میں سرمایہ کاری کی ہے، جس سے 800G/1.6T آپٹیکل ماڈیولز کی مانگ میں طوفانی اضافہ ہوا ہے۔ lite، Broadcom، Coherent، Ayar Labs جیسی کمپنیاں نئے فاتحین بن گئی ہیں۔

موجودہ پیشرفت: تانبا کے تاروں کی حد پہنچ گئی ہے، اور آپٹیکل انٹرکنیکشن "اختیاری" سے "ضروری" بن رہا ہے اور AI ڈیٹا سینٹر کی صلاحیت کے سرحد کو عبور کر رہا ہے۔

4. چوتھا مرحلہ کشیدگی (موجودہ سب سے آگے کا شعبہ): بجلی + تر ٹھنڈا (2026 سے آخری فزیکل پابندی بن جائے گی) مرکزی پابندی: طاقت کی دیوار + گرمی کی دیوار + بجلی کے شعبے تک رسائی۔

کیوں یہ آخری رکاوٹ ہے: ہر GPU 300W سے 700-1200W تک، اور ایک سرور کابینہ CPU کے دور سے 10-20kW سے بڑھ کر 120-200kW+ یا اس سے زیادہ ہو جاتا ہے۔ روایتی ہوا کولنگ کی فزیکل حد صرف 20-50kW ہے، جس کی آواز، ہوا کی مقدار اور توانائی کا استعمال قابل قبول نہیں۔

بجلی کی طرف سے: ڈیٹا سینٹرز کو GW سطح کی بجلی کی ضرورت ہوتی ہے، گرڈ کنکشن کے لیے انتظار کا دورہ کئی سال تک ہو سکتا ہے، اور ٹرانسفارمرز، سولڈ سٹیٹ ٹرانسفارمرز جیسے اوزار کی ڈیلیوری کا دورہ 100 ہفتے تک پہنچ جاتا ہے۔ مائیکروسافٹ کے سی ای او نے صرف کہا تھا کہ "GPU تو ہے لیکن پلگ ان کرنے کے لیے بجلی نہیں۔"

ایک طرف سے: ضرورت ہے کہ آپ Direct-to-Chip (براہ راست چپ پر سیال سرد کرنا) یا تیرے میں سیال سرد کرنا پر منتقل ہو جائیں، جس میں مائیکرو فلوکنٹ، کولنگ پلیٹ وغیرہ کی تکنیکوں کو شامل کیا جائے۔ TSMC نے CoWoS پلیٹ فارم پر سلیکون بنیادی سیال سرد کرنا کا مظاہرہ کیا ہے، جو >2.6kW TDP کو سپورٹ کرتا ہے۔ Vertiv (VRT) جیسے سیال سرد کرنا/حرارتی انتظام فراہم کنندگان بنیادی ڈھانچے کے نئے مرکز بن گئے ہیں۔

سلسلہ وار اثرات: PUE (برقی توانائی کا استعمال کی کارکردگی) کی درخواست <1.2، گرمی کی واپسی، اور ایٹمی برق یا نئی توانائی کا گرڈ سے جوڑنا نئے موضوعات بن گئے ہیں۔ اگرچہ پہلے تمام مراحل حل ہو جائیں، لیکن اگر برق اور ٹھنڈک دستیاب نہ ہو، تو کابینے لگائے نہیں جا سکتے۔

لائٹ میکول

AI کیلکولیشن سپلائی چین کی بوتل ناک کی منتقلی کا بنیادی منطق یہ ہے کہ AI کیلکولیشن ایک "ایکل نقطہ" کا مسئلہ نہیں بلکہ ایک سسٹم لیول لیونٹف پروڈکشن فنکشن ہے — GPU، HBM، انٹرکنیکشن، بجلی، اور ٹھنڈا کرنا کو کم سے کم کمزور لنک کے مطابق ملانا ہوگا۔ ہائپر سکیلر (گوگل، مائیکروسافٹ، میٹا وغیرہ) جب بھی ایک مسئلہ حل کرتے ہیں، فوراً سرمایہ اور نوآوری اگلے مرحلے کی طرف منتقل کر دیتے ہیں۔

ابھی (2026ء) میں، "آپٹیکل انٹرکنیکشن کا تیزی سے نفاذ + بجلی/لیکوڈ کولنگ کا بڑے پیمانے پر کاروباری استعمال" کے انتقالی مرحلے میں ہیں، مستقبل میں نئے رکاوٹیں (جیسے لیزر، فائبر آپٹیکل مواد یا گرڈ ٹرانسفارمرز) ظاہر ہو سکتی ہیں، لیکن "کمپوٹنگ → اسٹوریج → آپٹیکل → بجلی/کولنگ" کا سلسلہ صنعت کے لیے منظور شدہ راستہ بن چکا ہے۔

یہ بھی وضاحت کرتا ہے کہ سرمایہ کاری کا منطق NVIDIA/TSMC سے HBM کے تین بڑے کمپنیوں (SK ہائیسیٹس سمیت)، آپٹیکل فرماں (Lumentum، Coherent)، لکوڈ کولنگ/پاور انفراسٹرکچر (Vertiv، متعلقہ پاور کمپنیوں) کی طرف منتقل کیوں ہوا۔

ہر بوتل نیک کی منتقلی، سیمی کنڈکٹر اور ڈیٹا سینٹر کی صنعت کے اقدار کے تقسیم کو دوبارہ شکل دے رہی ہے۔