ڈیپسیک کی حکمت عملی: 10 ٹریلین ڈالر کا AI ہارڈویئر ایکو سسٹم تعمیر کرنا

دیپسیک کی 10 ٹریلین ڈالر کی بڑی حکمت عملی

ماخذ: @bookwormengr

پیگی، بلاکبیٹس

ویرایشی نوٹ: گزشتہ سال، ڈیپ سیک کے اردگرد کی بحثیں زیادہ تر ماڈل کی کارکردگی، اوپن سورس حکمت عملی اور قیمت کی جنگ پر مرکوز رہیں۔ لیکن اگر آپ صرف «کیا وہ سبسکرپشن بیچتا ہے؟»، «کیا اس میں متعدد ماڈلیٹی ہے؟»، «کیا وہ کوڈنگ ایجینٹ بن سکتا ہے؟» جیسے پہلوؤں سے ڈیپ سیک کو سمجھتے ہیں، تو شاید آپ اس کے اصل تبدیل کرنے کے ارادے کو کم تخمینہ لگا رہے ہیں۔

یہ مضمون ایک زیادہ جرأت مند تشخیص پیش کرتا ہے: DeepSeek کا مقصد شاید مختصر مدت میں ایپلیکیشن لیول پر آمدنی حاصل کرنا نہیں، بلکہ بنیادی ساخت میں نوآوری کے ذریعے AI ٹریننگ اور انفرنس کی لاگت کی ساخت کو دوبارہ شکل دینا اور غیر متوقع طور پر ایک نئے ہارڈویئر ایکوسسٹم کو فروغ دینا ہے۔ MoE، MLA سے لے کر DSA، CSA، mHC، Engram، اور پھر Dual Path اور TileLang تک، DeepSeek کی ٹیکنالوجی کا راستہ ہمیشہ ایک مرکزی سوال کے گرد گھومتا ہے: HBM، جدید پروسیس، پیکیجنگ اور CUDA ایکوسسٹم کے پابند ہونے کے باوجود، کم تر ہائی اینڈ کمپوٹنگ پاور کے ساتھ زیادہ طاقتور ماڈل کس طرح چلائے جائیں؟

سب سے زیادہ توجہ کا مرکز یہ نہیں کہ "DeepSeek API یا سبسکرپشن سے کئی ارب ڈالر کمائے گا" بلکہ یہ ہے کہ کیا یہ مدل کی صلاحیتیں، میموری سسٹم اور گھریلو ہارڈوئیر ایکوسسٹم کو ایک ساتھ جوڑ رہا ہے۔ KV Cache کمپریشن HBM پر انحصار کو کم کرتا ہے، NAND اور SSD لمبے وقت کے کیش کے لیے استعمال ہو سکتے ہیں، LPDDR وزن کے سٹریمنگ لوڈنگ اور Engram ذخیرہ کے لیے استعمال ہو سکتا ہے، جبکہ TileLang CUDA کے دفاعی دیوار کو کمزور کرنے کی کوشش کرتا ہے۔ اگر یہ ایجادات مسلسل پھیلتی رہیں تو صرف DeepSeek ہی نہیں بلکہ اسٹوریج، ASIC، GPU، نیٹ ورک چپس اور پورے AI انفراسٹرکچر چین کو فائدہ ہوگا۔

بے شک، "10 ٹریلین ڈالر کے صنعتی ایکوسسٹم" اور "1 ٹریلین ڈالر کی قیمت" کے بارے میں ذکر کردہ جائزہ اب بھی زیادہ تر تجزیاتی ہے۔ لیکن یہ DeepSeek کو سمجھنے کا ایک اہم راستہ فراہم کرتا ہے: اوپن سورس کا مطلب یہ نہیں کہ تجارتی منافع کو چھوڑ دیا جائے، اور کم قیمت کا مطلب یہ نہیں کہ صرف مارکیٹ کو سبسڈی دی جائے۔ DeepSeek کے لیے، اصل کاروبار شاید ایپلیکیشن لیول پر نہیں، بلکہ زیادہ سے زیادہ ہارڈویئر کو استعمال کے قابل بنانے اور کم لاگت والے AI کی فراہمی کو ممکن بنانے میں ہے۔ دوسرے الفاظ میں، وہ شاید مدلز کو نہیں، بلکہ اگلے نسل کے AI انفراسٹرکچر کی ممکنہ حیثیت بیچ رہا ہے۔

درج ذیل اصل متن ہے:

کیا آپ نے کبھی سوچا ہے کہ DeepSeek کیسے پیسے کمانے جا رہا ہے، اور شاید بہت زیادہ پیسے؟

اس نے GLM، MoonShot اور MiniMax کی طرح مقابلہ کرنے والی پروگرامنگ سبسکرپشن سکیمز نہیں لانچ کی ہیں؛ نہ ہی متعدد ماڈل، آڈیو یا ویڈیو ماڈلز۔ اب تک، اس کے پاس اپنا ہارنس بھی نہیں ہے، یعنی ماڈل کالز، ٹولز کا ایکسیس اور ٹاسک انجام دینے کے لیے باہری رن ٹائم فریم ورک — حالانکہ انہوں نے حال ہی میں اس نظام کو تعمیر کرنے کے لیے متعلقہ ملازمتوں کے لیے مقرر کرنا شروع کر دیا ہے۔

اسی دوران، DeepSeek لگتا ہے کہ وہ طویل مدت تک اوپن سورس کے ساتھ مضبوطی سے کھڑا ہے، اور اپنے "راز" کو شیئر کرنے کو تیار ہے۔ کیا یہ پاگل پن نہیں ہے؟ کیا یہ صرف پیسہ برباد کرنا نہیں ہے؟ کیا وہ سرمایہ کار جو اس میں 100 ارب ڈالر کا سرمایہ کاری کرنے کی تجویز کر رہے ہیں، اپنا پیسہ سیورج میں ڈال رہے ہیں؟

میری ذاتی رائے یہ ہے کہ جواب بالکل الٹا ہے۔

اگلے، میں ڈیپسیک کے اب تک کے کاموں کی بنیاد پر کچھ مشاہدات پیش کروں گا اور اس کی ایسی حکمت عملی کا تجزیہ کروں گا جو وہ مسلسل اپنا رہا ہے۔ ڈیپسیک کے سی ای او لیانگ وین فینگ کا مقصد شاید صرف موجودہ ماڈل کے مقابلے تک محدود نہیں ہے۔ ان کا ہدف شاید ایک بڑا انعام ہے: ڈیپسیک کو 1 ٹریلین ڈالر کی قیمت حاصل کرنے اور ایک 10 ٹریلین ڈالر کے نئے صنعت کو فروغ دینے کا موقع مل سکتا ہے۔

TechInAsia کی رپورٹ کے مطابق DeepSeek کی نئی سرمایہ کاری کی لہر

ڈیپسیک کے "ہیرو کی سفر" کا دوبارہ دورہ

ڈیپسیک نے ہمیشہ مقابلے کے خلاف کام کیا۔ اس نے مستقل طور پر تھوڑے بہتر ماڈلز جاری کرنے اور انہیں فوری منافع کے لیے ایپلیکیشنز میں تبدیل کرنے کا انتخاب نہیں کیا، جیسے پروگرامنگ سبسکرپشن۔ 27 جنوری 2025 کو، میں نے ایک وائرل ٹویٹ شیئر کی تھی جس میں میری نظر میں ڈیپسیک کا "ہیرو کا سفر" بیان کیا گیا تھا۔ آج، یہ کہانی مزید دلچسپ ہو گئی ہے۔

جب دوسرے افراد مکمل ماڈلز بنانے کی کوشش کر رہے ہوں، تو DeepSeek نے زیادہ مشکل ٹرین کرنے والے ماڈلز کے مجموعے (Mixture of Experts، MoE) کو اپنایا۔

انہوں نے "پہلے اصولوں" کے طریقے کو اپنایا اور PPO ری انفورسمنٹ لرننگ الگورتھم کی جگہ لینے کے لیے نیا GRPO الگورتھم تیار کیا، جو اس وقت کے مقبول ترین تھا لیکن اس کی حاصل کرنے کی لاگت زیادہ تھی۔

انہوں نے پایا کہ قابل تصدیق انعامات سے سیکھنے کا طریقہ (Reinforcement Learning from Verified Rewards، RLVR) ماڈل کی استدلال کی صلاحیت کو بڑھانے کی اہم حکمت عملی ہے۔

انہوں نے "مُلتی ٹوکن پریڈکشن" کے ذریعے ایک آسان اسٹریٹجی بھی پیش کی ہے جس سے ٹریننگ سگنلز زیادہ متراکم ہو جاتے ہیں۔

انہوں نے محدود GPU وسائل کی استعمال کی کارکردگی بڑھانے کے لیے "زیرو ببل" (ZERO bubble) لائن کو بہتر بنایا۔

انہوں نے ایک ماہر بیلنسنگ کا ایڈیشن جاری کیا ہے جس سے MoE ماڈلز کو ڈپلوی کرنا زیادہ آسان ہو جاتا ہے۔ خاص طور پر، "وائیڈ ایکسپرٹ پیرلل" اسٹریٹجی کے ذریعے، ماڈلز بڑے بیچ کے ساتھ سروس فراہم کر سکتے ہیں، جس سے انفرینس کی لاگت میں کافی کمی آتی ہے۔

انہوں نے KV Cache کی ضرورت کم کرنے اور حسابی ضروریات کو جتنی ممکن ہو اس قدر مستقل رکھنے کے لیے MLA، DSA، CSA، HCA جیسے مکینزمز تیار کیے۔

انہوں نے اینگرام درست کیا، جس میں کمپیوٹیشنل کارکردگی کے لیے میموری کا تبادلہ کیا جاتا ہے۔

انہوں نے mHC بھی دریافت کیا، جس سے ماڈل کے سائز کو بڑھاتے وقت بھی مستقل تربیت ممکن ہو جاتی ہے۔ اس طرح کے مثالیں کئی ہیں۔

سب سے عام کہانی کی ساخت، "ہیرو کا سفر" میں، ہیرو اپنے سفر کی منزل کو شروع سے ہی طے نہیں کرتا۔ وہ راستے میں سیکھتا ہے، اپنی حقیقی عظیم مہم کو دریافت کرتا ہے، اور بہت سی رکاوٹوں کے باوجود اسے مکمل کرتا ہے۔ وہ بہت سے شک کرنے والوں سے ملتا ہے، لیکن وہ انہیں نظرانداز کرنے کا انتخاب کرتا ہے۔ وہ بہت سے بدمعاش افراد سے بھی ملتا ہے۔ اس کے پاس واضح کمزوریاں یا کمیاں ہوتی ہیں، لیکن وہ آخرکار ان مسائل پر قابو پا لیتا ہے اور اپنی مہم مکمل کر دیتا ہے۔ وہ ایسے چیلنجوں کا مقابلہ کرتا ہے جو لگتے ہیں کہ ان پر قابو پانا ناممکن ہے، لیکن وہ اتحاد بنانے کا طریقہ تلاش کرتا ہے اور محدود اور قیمتی وسائل کو ذکاوت سے استعمال کرنے کا طریقہ سیکھتا ہے۔ یہی بات دارخواہوں کو ہیرو کے لیے تحریک دینے کا باعث بناتی ہے۔ یہی وجہ ہے کہ DeepSeek کو پیروکار، عالمی احترام اور مخالفین حاصل ہوئے۔

جیسے کہ میں اگلے مراحل میں تفصیل سے بیان کروں گا، DeepSeek نے اس راستے پر لمبے عرصے سے قدم رکھا ہے اور اپنی نہایت اہم مہم کو逐渐 سمجھنا شروع کر دیا ہے: اس کا مقصد پروگرامنگ سبسکرپشن منصوبوں کی فروخت نہیں بلکہ 10 ٹریلین ڈالر کے چینی AI ہارڈویئر ایکوسسٹم کو فروغ دینا اور اپنی قیمت 1 ٹریلین ڈالر تک پہنچانا ہے۔ اس عمل کے دوران، یہ مغربی ہارڈویئر ایکوسسٹم میں بہت سے نئے کھلاڑیوں کے لیے مواقع پیدا کرے گا۔

کچھ دلچسپ KV Cache کی حسابگری سے شروع کریں

براہ کرم @SemiAnalysis_ کی تازہ ٹویٹ دیکھیں:

ڈیپسیک نے اس مسئلے کو کسی بھی دوسرے کے مقابلے میں بہتر طریقے سے حل کر لیا ہے!

چلیے اب کچھ دلچسپ KV Cache کی حساب کتاب کرتے ہیں۔ فکر نہ کریں، اگر آپ کو ریاضی پسند نہیں تو بھی۔ ہم حال ہی میں جاری کیے گئے KV Cache کیلکولیٹر کا استعمال کرکے دیکھیں گے کہ DeepSeek V4 Pro کتنی KV Cache بچت لاتا ہے، اور اسے تازہ ترین GLM اور Qwen ماڈلز کے ساتھ موازنہ کرتے ہیں۔

میں یہاں 100 ہزار کے حوالے سے حساب لگا رہا ہوں، فرض کرتے ہوئے کہ KV کی درستگی 8 بٹ ہے اور انڈیکسر کی درستگی 16 بٹ ہے۔ آپ خود اس کیلکولیٹر کو بھی آزما سکتے ہیں：https://kvcache.ai/tools/kv-cache-calculator/

آپ خود کیلکولیٹر بھی کھول کر آزمائیں!

100 لاکھ کنٹیکس لمبائی پر:

·ڈیپسیک V4 کو صرف 5.48GB HBM کی ضرورت ہے؛

·GLM-5 کو 60GB HBM کی ضرورت ہے؛

·Qwen3-235B-A22B کو 89GB HBM کی ضرورت ہوتی ہے۔

نوٹ کریں کہ:

·ڈیپسیک ایک 1.6 ٹریلین پیرامیٹر ماڈل ہے؛

· GLM-5 تقریباً 700 ارب پیرامیٹرز ہے، اور اس نے DeepSeek کے MLA اور DSA کو اپنایا ہے، لیکن ابھی تک نئی تھوڑی سی توجہ کے مکانزم کا استعمال نہیں کیا گیا ہے؛

Qwen3-235B-A22B تقریباً 2350 ارب پیرامیٹرز پر مشتمل ہے اور GQA توجہ کے طریقہ کار کا استعمال کرتا ہے۔

ڈیپسیک نے میموری کے دباؤ کو کم کرنے میں بنیادی کردار ادا کیا ہے۔ اگر اس قسم کے ایجادات کو وسیع پیمانے پر اپنایا جائے، تو لمبے دور کے ایجینٹس کے آپریشن کے اخراجات میں کافی کمی آئے گی اور نئے اطلاقات کا ایک نیا سلسلہ کھل جائے گا۔

100 ہزار ٹوکن کے کنٹیکس اور ماڈل سائز کے تحت KV کیش کا استعمال کا موازنہ

"پاگل پن" کے پیچھے کا طریقہ کار

KV کیش کا حجم اتنा چھوٹا کیسے ہے، جبکہ مدل کی معیار کو متاثر نہیں کیا جاتا، یہی وجہ ہے کہ DeepSeek لمبے وقت کے لیے کیش فراہم کرنے کا انتہائی کم قیمت پیش کرتا ہے—اس کی قیمت Sonnet 4.6 کیش ہٹ کی قیمت سے تین فیصد سے بھی کم ہے، اور DeepSeek کیش کو کئی گھنٹوں تک محفوظ رکھ سکتا ہے۔

لمهام الدورة الطويلة، فإن تخزين KV أصغر يعني أنه يمكن إزالتها بفعالية من حيث التكلفة إلى SSD وإعادة تحميلها عند الحاجة، مما يقلل الاعتماد على HBM. من منظور صناعة الأجهزة الذكية الاصطناعية الصينية، فإن HBM ليست فقط نادرة في العرض، بل هي أيضًا أحد أكثر أنواع الذاكرة صعوبة في التصنيع.

اس کے علاوہ، DeepSeek نے SSD سے KV Cache کو تیزی سے لوڈ کرنے کی ٹیکنالوجی بھی تیار کی ہے، جس کا ذکر اس کے Dual Path پیپر میں کیا گیا ہے۔

ڈیپ سیک V4 کے لیے KV Cache کا دباؤ بہت زیادہ ہے، جس کی وجہ سے یہ مرحلہ شاید اب ضروری نہیں رہ جائے۔

تو، KV Cache کے دباؤ کے سب سے براہ راست فائدہ مند کون ہیں؟

SSD کا بڑے پیمانے پر فراہمی کون کر رہا ہے؟ یاد رکھیں، YMTC (چانگجیانگ اسٹوریج) 3D NAND کے شعبے میں ایک بڑے کھلاڑی کے طور پر ابھر رہا ہے۔ NAND، DeepSeek کو KV کی دوبارہ کلکولیشن سے بچانے میں مدد کر سکتا ہے۔ اس کے بدلے، DeepSeek NAND اور SSD کے لیے ایک بڑا مارکیٹ تشکیل دے رہا ہے—جس سے صرف چانگجیانگ اسٹوریج ہی نہیں بلکہ دیگر متعلقہ فرماں بھی فائدہ اٹھائیں گی۔

تاہم، یہ صرف NAND اور SSD کے بارے میں نہیں ہے۔

LPDDR میموری میں بھی بہت بڑی صلاحیت ہے۔ اسے ماڈل وزنز کو محفوظ رکھنے کے لیے استعمال کیا جا سکتا ہے اور جب ضرورت ہو تو ان وزنز کو HBM میں سٹریم کیا جا سکتا ہے، جس سے HBM کی ضرورت پر دباؤ کم ہوتا ہے۔ SGLang ٹیم نے اس کے بارے میں ایک بہترین بلاگ شائع کیا تھا۔ مندرجہ ذیل تصویر اس منصوبے کے عمل کو ظاہر کرتی ہے۔

ہاں، ہر ایک کو اپنی مرضی کے مطابق چننا چاہیے، لیکن اس کے لیے ایک چھوٹی سی تجاویز ہے: اگر آپ کو کوئی چیز پسند نہیں آئی تو اسے نہ چنیں۔

یہ سکیمیٹک ڈائیاگرام یہ ظاہر کرتا ہے کہ میموری کا استعمال کیسے ہو سکتا ہے اور مدل وزن کیسے LPDDR سے HBM میں سٹریم ہوتے ہیں۔ SGLang کے بلاگ کو پڑھنا بہت تجویز کیا جاتا ہے۔

اگر یہ نوآوری بہت ہلکے اور بے نقص KV Cache کے ساتھ جوڑی جائے تو HBM کی ضرورت میں نمایاں کمی آئے گی۔

تو، چین میں LPDDR کون بنارہا ہے؟ جواب ہے CXMT، یعنی چانگشین اسٹوریج۔ وہ LPDDR کی رفتار میں صرف تقریباً ایک نصف نسل پیچھے ہیں، اور اس کی ڈینسٹی میں ایک نسل پیچھے ہیں، جو فرق بہت زیادہ نہیں ہے۔

نند کے علاوہ، چین کے AI ایکوسسٹم کے قریبی مستقبل میں LPDDR کی بھی کافی فراہمی ہوگی۔ کیا یہ کمپوٹیشنل دباؤ کو کم کرے گا؟ جواب ہے: ہاں۔ آگے بڑھیں۔

ذکاوت سے میموری کا استعمال کرنے سے GPU / ASIC پر بوجھ کم ہو سکتا ہے

NAND کا استعمال KV Cache کو ذخیرہ کرنے کا مقصد آسانی سے سمجھا جا سکتا ہے: یہ KV Cache کو لمبے وقت تک برقرار رکھتا ہے، HBM پر دباؤ کو کم کرتا ہے، اور KV Cache کی دوبارہ حساب کتاب سے بچتا ہے، جس سے GPU اور ASIC کے حسابی بوجھ میں کمی آتی ہے۔

تو، کیا LPDDR بھی اسی طرح کام کر سکتی ہے؟ ایک ایسی میموری کے طور پر جو وزن کو "آن ڈیمانڈ اور فوری" طور پر HBM تک سٹریم کر سکے، کیا یہ کمپوٹیشنل دباؤ کو مزید کم کر سکتی ہے؟

جی ہاں۔

LPDDR کو Engram کہلاتے ہوئے بڑی مقدار میں مواد محفوظ کرنے کے لیے استعمال کیا جا سکتا ہے۔ DeepSeek کی Engram پیپر میں، انہوں نے بتایا کہ MoE، ماڈل کی صلاحیت کو شرطی کمپوٹیشن کے ذریعے بڑھا سکتا ہے، لیکن Transformer خود میں ایک بنیادی "معلومات کی تلاش" کا مکینزم نہیں رکھتا۔ اس لیے، Transformer عام طور پر تلاش کے عمل کو کم کارآمدی کے ساتھ کمپوٹیشن کے ذریعے محاکمہ کرنے پر مجبور ہوتا ہے۔

اس مسئلے کو حل کرنے کے لیے، DeepSeek نے Engram ماڈیول پیش کیا۔ اس نے کلاسیکی N-gram embedding کو جدید بنایا اور اسے ایک ہیش مبنی O(1) تلاش مکانیزم میں تبدیل کر دیا، جس سے ایک مکمل طور پر مکمل کمی کا راستہ بن گیا، جسے وہ شرطی یادداشت (conditional memory) کہتے ہیں۔

یہ طریقہ کار حساب کے لیے بچت کرتا ہے، لیکن ایم بیڈنگ ٹیبل کو برقرار رکھنے کے لیے میموری کی ضرورت ہوتی ہے، جو خود بخود بہت بڑا ہو سکتا ہے۔

بنیادی طور پر، یہ ایک مصنوعی "میموری کے بدلے کمپوٹیشن" کا طریقہ ہے۔ لیکن اس کا اہم خیال یہ ہے کہ: ہر بٹ ڈیٹا کی پڑھنے کی لاگت کے حساب سے، "میموری" والی طرف بہت سستی ہے — ایک LPDDR تلاش، ڈیٹا کو متعدد لیئرز کے ذریعے ٹرانسفارمر سے گزار کر ایک فارورڈ پاس کرنے کے مقابلے میں بہت سستا ہے۔ اس لیے، بڑے پیمانے پر منظر ناموں میں، یہ ایک بہت بہترین تبادلہ ہے۔

یہی DeepSeek کا وہ طریقہ ہے جس میں وہ کچھ میموری کا قربانی دے کر کمپوٹیشن بچاتا ہے۔

جو کچھ کرنے کے قابل ہے

چونکہ چینی GPU اور ASIC کے پاس同等水平 کے چپ ٹرانزسٹر ڈینسٹی کا کوئی مساوی نہیں ہے اور نہ ہی EUV ہے، اس لیے وہ اصل FLOPs کی طاقت میں مغربی GPU کے ساتھ لمبے عرصے تک پیچھے رہ سکتے ہیں۔ ان کے پاس اعلیٰ پیکیجنگ میں بھی واضح فرق ہے۔ اس لیے، خاص طور پر اس صورت میں جب چین NAND اور LPDDR میموری کا بڑے پیمانے پر پیداوار کر سکتا ہے، اس قسم کا توازن بہت قابلِ توجہ ہے۔

ڈیپسیک کی لمبے مدتی حکمت عملی کا جائزہ

ان نوآوریوں کو دیکھتے ہوئے، ڈیپ سیک کا مقصد ابھی کچھ ارب ڈالر کا منافع کمانا نہیں لگتا۔ اس کے گزشتہ بہت سے فیصلوں سے یہ بات واضح ہوتی ہے: اب تک کوئی بہ متھ مڈل نہیں، کوئی آواز مڈل نہیں، اور ویڈیو مڈل کی بات تو نہیں ہو رہی۔

اس کا اصل میں شرکت ایک صبر کے ساتھ، ممکنہ طور پر 10 ٹریلین ڈالر کے پیمانے والے طویل مدتی کھیل میں ہے: ایک متبادل AI ہارڈویئر ایکوسسٹم کو فروغ دینا۔

یہ صرف اس لیے نہیں ہے کہ چینی میموری فارموز چین اور عالمی AI ہارڈویئر مارکیٹ میں اہم کھلاڑی بن سکیں، بلکہ AI ماڈلز کی تربیت اور سروسز کو زیادہ لاگت کے لحاظ سے کارآمد بنانے کے لیے وسائل کی ضرورت کو بنیادی طور پر کم کرنا ہے۔ اس طرح، بہت سے GPU، ASIC اور نیٹ ورک چپ فارموز کو عملی اختیارات کے طور پر موقع مل سکتا ہے۔

اسی دوران، یہ نوآوریں مغربی اوپن سورس ایکوسسٹم اور نئی نسل کے ہارڈویئر سازوں کو بھی فائدہ پہنچائیں گیں۔

سبھی نشانات پہلے ہی ظاہر ہو چکے ہیں۔ آئیے، DeepSeek کے اب تک پیش کردہ ان ایجادات کو تفصیل سے دوبارہ دیکھتے ہیں:

1. DeepSeek V2 میں متعارف کرائے گئے ماہر مخلوط ماڈل (MoE) اور MLA

DeepSeek نے V2 میں MoE اور MLA متعارف کرایا۔ MoE نے اعلیٰ ذہانت والے ماڈلز کے تربیت کے لیے درکار کمپیوٹیشن کو تقریباً 40 فیصد سے 50 فیصد تک کم کردیا؛ MLA نے KV Cache کو 90 فیصد تک کم کردیا۔

اس سے KV Cache کو SSD پر اُتارنا کافی موثر بن جاتا ہے۔

یہ خیالات سب سے پہلے 2024 کے مئی میں DeepSeek کے ذریعہ جاری کیے گئے DeepSeek V2 کے پیپر میں ظاہر ہوئے۔ بعد میں، انہوں نے DeepSeek V3 کی تربیت کے لیے بنیاد رکھی۔ اس وقت، DeepSeek نے صرف 2048 کمزور شدہ H800 GPU کا استعمال کرتے ہوئے ایک ایسا سسٹم تربیت دیا جو بند ماڈلز کے سطح تک کارکردگی رکھتا تھا۔

2. DSA: ڈیپ سیک V3.2 Exp میں درج کیا گیا، جس کا مقصد لمبے کنٹیکس کے سیناریوز میں کمپیوٹیشنل اخراجات کو کم کرنا اور HBM بینڈ ویتھ کے دباؤ کو کم کرنا ہے۔

DSA کا مرکزی کردار یہ ہے کہ حساب کی مقدار کو متن کی لمبائی کے بڑھنے کے ساتھ لگاتار نہ بڑھنے دیا جائے۔ ذیل کے گراف کو دیکھیں: متن کی لمبائی بڑھنے کے ساتھ، DeepSeek-V3.2 کا عمل کا وقت تقریباً مستقل رہتا ہے۔

3. mHC: 2025ء کے دسمبر میں ڈیپسیک نے تحقیقی مقالہ "mHC: Manifold-Constrained Hyper-Connections" میں اسے پیش کیا۔

mHC DeepSeek کی طرف سے ماکرو آرکیٹیکچر لیول پر ایک نوآوری ہے، جو Transformer لیئرز کے درمیان معلومات کے انتقال کو دوبارہ ڈیزائن کرتی ہے۔

گزشتہ زمانے میں، ریس نیٹ کے بعد، ماڈلز عام طور پر معیاری ریزیڈوئل کنکشن، یعنی x + F(x) کا استعمال کرتے تھے۔ mHC کا طریقہ، ریزیڈوئل فلو کو متعدد متوازی معلومات کے چینلز میں توسیع دینا ہے اور ماڈل کو ان چینلز کے درمیان سیکھنے کے قابل مخلوط ہونے کی اجازت دینا ہے۔ اہم بات یہ ہے کہ یہ مخلوط میٹرکس کو دوہری اتفاقی میٹرکس کے طور پر پابند کرتا ہے، یعنی اسے Sinkhorn-Knopp پروجیکشن کے ذریعے Birkhoff بہت سطح پر محدود کرتا ہے۔ اس طرح، ریاضیاتی طور پر یقینی بنایا جاتا ہے کہ ماڈل کتنی بھی گہرا ہو، سگنل کا پیمانہ مستقل رہے۔

یہ پہلے بے حد ہائپر-کنکشنز کے سامنے آنے والے تباہ کن عدم استحکام کا حل ہے۔ ہائپر-کنکشنز کو ابتدائی طور پر بائٹ دانس نے پیش کیا تھا، لیکن بے حد حالت میں، سگنل فوری اضافہ 27 ارب پیرامیٹرز کے سائز پر 3000 گنا تک پہنچ جاتا تھا، جس سے تربیت مکمل طور پر ناکام ہو جاتی تھی۔

mHC کی حساب کتاب کا اخراج بہت کم ہے: یہ صرف تقریباً 6.7% کا اصل تربیت کے وقت کا اخراج لاتی ہے، کیونکہ یہ توجہ لیور یا FFN لیور کے FLOPs کو نہیں بدلتی، بلکہ صرف ان لیورز کے درمیان ان کے آؤٹ پٹ کے راؤٹنگ کو بدلتی ہے۔

لیکن اس سے حاصل ہونے والی کارکردگی میں بہت بڑی بہتری ہوئی ہے: 27 ارب پیرامیٹرز کے سائز پر، mHC نے BIG-Bench Hard ریزنگ ٹاسکس میں 7.2 امتیاز، DROP میں 3.2 امتیاز، GSM8K ریاضی ٹاسکس میں 2.8 امتیاز، اور MMLU جامع جانکاری ٹاسکس میں 1.4 امتیاز کا اضافہ کیا۔ اور یہ تمام بہتریاں ایک جیسے ماڈل سائز اور تقریباً ایک جیسے کمپوٹیشنل بجٹ کے تحت حاصل کی گئی ہیں۔

اس کے بنیادی طور پر، mHC ایک زیادہ غنی اور زیادہ بیان کرنے والی کراس لیئر معلومات کے راؤٹنگ ٹاپولوجی فراہم کرکے، تقریباً اضافی FLOPs کے بغیر، اعلیٰ یونٹ پیرامیٹر ذہانت حاصل کرتا ہے۔

mHC ایک پیچیدہ آرکیٹیکچر ڈیزائن ہے، لیکن یہ زیادہ مستحکم تربیت کے عمل اور زیادہ فرد پیرامیٹر ذہانت فراہم کرتا ہے۔

4، CSA، HSA: DeepSeek نے 2026ء کے اپریل میں V4 میں متعارف کرایا۔

CSA اور HSA کا مقصد، KV Token کو دبائے جانے کے ذریعے KV Cache کی ضرورت میں 90 فیصد کمی لانا اور درکار FLOPs کو بھی کافی حد تک کم کرنا ہے، تاکہ HBM اور GPU / ASIC دونوں پر دباؤ کم ہو سکے۔

5، اینگرام: ڈیپسیک نے 2026 کے پہلے تिमہ میں متعارف کرایا، جو بنیادی طور پر کمپوٹیشنل کارکردگی کے لیے میموری، یعنی LPDDR میموری، کے ساتھ تبادلہ ہے۔

جیسے کہ نیچے کی تفصیلی گراف میں دکھایا گیا ہے، مجموعی پیرامیٹر بجٹ کے مساوی ہونے کے باوجود، اینگرام نے واضح کارکردگی میں اضافہ کیا ہے۔

6، اینگرام: ڈیپسیک نے 2026 کے پہلے تिमہ میں متعارف کرایا، جو بنیادی طور پر کمپوٹیشنل کارکردگی کے لیے میموری، یعنی LPDDR میموری، کے ساتھ تبادلہ ہے۔

یہ DeepSeek کی V4 پیپر میں ہارڈویئر فرنڈز کو دی گئی تجاویز ہیں۔ میں یقین کے ساتھ کہہ سکتا ہوں کہ آف لائن بات چیت میں ان کے ردعمل اور زیادہ ہوں گے۔

7، ٹائل لینگ میں سرمایہ کاری بھی ایک ہی سمت کی طرف اشارہ کرتی ہے: ڈیپ سیک صرف اپنی کمپوٹیشنل باتھ نیکس کو حل نہیں کر رہا، بلکہ چینی ہارڈوئیر ایکوسسٹم کو مغربی ایکوسسٹم کے ساتھ مقابلہ کرنے کی صلاحیت حاصل کرنے میں مدد دے رہا ہے۔

ٹائل لینگ کے ذریعے، ڈیولپرز صرف ایک بار کرنل — یعنی کمپیوٹیشن کے لیے بنیادی کوڈ — لکھ سکتے ہیں، اور پھر اسے متعدد ہارڈویئر پلیٹ فارمز پر چلا سکتے ہیں، شرط یہ ہے کہ ان پلیٹ فارمز پر ٹائل لینگ باک اینڈ موجود ہو۔

میں متوقع کرتا ہوں کہ دیگر چینی AI لیبز بھی تدریجاً شامل ہو جائیں گے۔ اس سے چینی ہارڈویئر فرماوں کو مخصوص طور پر "CUDA دیوار" کا مقابلہ کرنے میں مدد ملے گی۔ اس کے علاوہ، یہ مغربی ہارڈویئر، جیسے AMD، کی صلاحیتوں کو بھی آزاد کرے گا۔

یہ قابل ذکر ہے کہ چین کے کئی AI ہارڈویئر پلیٹ فارمز پہلے سے CUDA مطابقت یا CUDA ترجمہ لیئر فراہم کر رہے ہیں۔ مثال کے طور پر، موئر لائن، موکسی، بی رن اور تین شو زھی شن، CUDA کی اعلیٰ مطابقت حاصل کرنے کے لیے ترجمہ لیئر کا استعمال کرنے والے چینی چپ فنڈرز ہیں۔ اس لیے نظریہ طور پر، انہیں TileLang کی ضرورت نہیں ہو سکتی۔

بڑے پیمانے پر تقویتی سیکھنا اور RSI

جب DeepSeek کو زیادہ کمپیوٹنگ پاور کے ذرائع، یعنی زیادہ ہارڈویئر کے اختیارات ملیں گے، اور مدل کی خود کمپیوٹنگ وسائل کی ضرورت کم ہو جائے گی، تو وہ زیادہ طموحانہ ٹریننگ منصوبوں، خاص طور پر تقویت سیکھنے کے بعد ٹریننگ کو آگے بڑھا سکے گا۔

ایک مضبوط سیکھنے کے لیے بہت زیادہ ٹریجکٹریز کی ضرورت ہوتی ہے، جس کا مطلب ہے کہ تریلیئنز ٹوکنز کو جنریٹ کیا جائے۔ یہ عمل جلد ہی بہت مہنگا ہو جائے گا۔ مزید برآں، اگر آپ ایک مدل کو 1 ملین کنٹیکسٹ لمبائی پر ٹرین کرنا چاہتے ہیں، تو آپ کو اسی لمبائی کی ٹریجکٹریز جنریٹ کرنے کی ضرورت ہوگی۔ صرف اس طویل ٹریجکٹریز پر مدل کو ٹرین کرکے ہی لمبے دورانیے والے ٹاسکس کو حقیقی طور پر سپورٹ کیا جا سکتا ہے۔

اس کے علاوہ، ہارڈویئر کے اختیارات میں اضافے کے ساتھ، DeepSeek کے پاس دستیاب ہارڈویئر وسائل بھی زیادہ ہوں گے، جس سے خودکار تحقیق، جسے RSI کہا جاتا ہے، کو فروغ ملے گا۔ RSI کا مطلب ہے کہ AI خود تجربات ڈیزائن کرتا ہے اور انہیں انجام دیتا ہے۔ اس طریقہ کار میں بہت سارے تجربات اور غلطیوں کا شامل ہونا ضروری ہوگا، جس سے لاگت تیزی سے بڑھے گی۔ لیکن مکمل ماڈل ڈیزائن اسپیس کی تلاش کے لیے RSI نہایت ضروری ہے۔ AGI کی طرف جانے اور اس کے بعد ASI کی طرف جانے سے پہلے، DeepSeek کو RSI کی صلاحیت حاصل ہونی چاہیے۔

ڈیپسیک آج جو کر رہا ہے، پورا صنعت کل اس کے ساتھ چلے گا

ڈیپسیک کے ماہرین مخلوط ماڈل، MLA، DSA جیسے شعبوں میں نوآوریوں کو عالمی اور چین کے دیگر AI لیبارٹریز نے تدریجاً اپنا لیا ہے۔

مثال کے طور پر، GLM سیریز ماڈلز کے ترقی دہندہ ZAI نے MLA اور DSA کا استعمال کیا ہے۔ کیمی، جو مون شاٹ ہے، نے بھی MLA کو اپنایا ہے اور صاف طور پر اعتراف کیا ہے کہ اس کی ساخت DeepSeek کی ساخت پر مبنی ہے۔ اس کے برعکس، DeepSeek نے Muon آپٹیمائزر کا استعمال کیا ہے، جبکہ Muon کو سب سے پہلے کیمی (مون شاٹ) نے بڑے پیمانے پر تربیت میں اپنایا تھا۔

یہ بات قابل ذکر ہے کہ:

MoE کو 2017 میں گوگل نے سب سے پہلے پیش کیا، جس کے اہم مصنف نوم شازیر تھے۔ دیپسیک کا کردار MoE کو بڑے پیمانے پر لاگو کرنا اور اپنے مخصوص ٹرکس دریافت کرنا تھا۔

Muon، جو کہ Newton-Schulz آپٹیمائزر کے ذریعے MomentUm کا Orthogonalized ہے، 2024 کے آخر میں ماشینی سیکھنے کے محقق Keller Jordan نے پیش کیا۔ Kimi (Moonshot) ٹیم پہلی ٹیم تھی جس نے اسے بڑے پیمانے پر تربیت کے لیے استعمال کیا۔

پیسہ کمانے کا مسئلہ کیا ہوگا؟

ہم OpenAI کے دلچسپ مثال کو دیکھ سکتے ہیں۔

اوپن اے آئی کو ایم ڈی اور سیریبراس کے اسٹاک خریدنے کے لیے کم قیمت پر وارنٹس / آپشنز مل گئے ہیں، جو ان کی کمپوٹنگ کے استعمال کے اہم مilestone سے منسلک ہیں۔ ایم ڈی اور سیریبراس کے لیے یہ بہت فائدہ مند معاہدہ ہے، کیونکہ جب بھی اوپن اے آئی ان کے ہارڈویئر کا استعمال کرنے کا عہد کرے گا، تو ان کی لمبے عرصے تک کامیابی کا امکان بڑھ جائے گا۔

AMD کے اعلان میں ایک عبارت ہے:

معاہدے کے حصے کے طور پر، دونوں طرف کے استراتیجیک مفادات کو مزید بہتر بنانے کے لیے، AMD نے OpenAI کو 160 ملین AMD عام شیئرز خریدنے کے لیے وارنٹ جاری کیے ہیں، جو مخصوص اہمیت والے مقاصد کے حصول کے ساتھ ساتھ تدریجی طور پر حاصل ہوں گے۔ پہلا گروپ ابتدائی 1 گیگاواٹ ڈپلویمنٹ مکمل ہونے پر حاصل ہوگا، جبکہ بعد کے گروپس 6 گیگاواٹ تک خریداری کے اضافے کے ساتھ تدریجی طور پر حاصل ہوں گے۔ حصول کی شرائط AMD کے مخصوص شیئر قیمت کے مقاصد حاصل کرنے اور OpenAI کے AMD کو ضروری تکنیکی اور تجارتی اہمیت والے مقاصد حاصل کرنے سے بھی منسلک ہیں۔

میں متوقع کرتا ہوں کہ ڈیپسیک بھی چین کے متعدد میموری، ASIC، CPU اور نیٹ ورک ٹیکنالوجی سٹیک فرنڈز کے ساتھ اسی طرح کے معاہدے کرے گا اور ان فرنڈز کے ہارڈ ویئر سٹیک کو لیڈنگ AI ورک لوڈ کے لیے مناسب بنانے کے لیے ان کے ساتھ گہرا تعاون کرے گا۔

مغربی ممالک سمیت مشرقی ایشیائی اتحادیوں کے تمام AI اسٹاکس کی کل مارکیٹ کی قیمت پہلے ہی 10 ٹریلین ڈالر سے زیادہ ہو چکی ہے، اس طرح کا “تعاون کے ذریعے ملکیت کا فائدہ حاصل کرنا” DeepSeek کو چین کے لیے ایک اسی طرح کا بڑا صنعتی نظام تعمیر کرنے اور اس میں اپنا حصہ حاصل کرنے کا موقع فراہم کرے گا، جس سے آخرکار اس کی 1 ٹریلین ڈالر کی قیمت حاصل ہوگی۔

یہ نہ صرف ڈیپسیک کو روایتی ایپ سبسکرپشن کاروبار سے کہیں زیادہ کمائی دے گا، بلکہ اس کا مقصد "AGI کو ہر کسی تک پہنچانا" بھی پورا کرے گا۔ لیانگ وین فینگ جم سیمونز کے سچے شائقین ہیں اور کافی ذکی سرمایہ کار ہیں، وہ اس نقطہ کو ضائع نہیں کر سکتے۔

اگر آپ DeepSeek کے اب تک کے تمام کاموں کو پیچھے کی طرف دیکھیں، تو صرف ایک ہی وضاحت منطقی ہے۔

یہ کلیدی AI اسٹاک ہیں۔ گراف میں ہائپر اسکیلرز، یعنی بہت بڑے کلاؤڈ فراہم کنندگان، اور بہت سے دیگر متعلقہ کمپنیاں شامل نہیں ہیں۔

اصل لنک