ڈیپسیک کی 10 ٹریلین ڈالر کی حکمت عملی: اوپن سورس اور AI ہارڈویئر ایکو سسٹم

دیپسیک کی 10 ٹریلین ڈالر کی بڑی حکمت عملی

ماخذ: @bookwormengr

پیگی، بلاکبیٹس

ویرایشی نوٹ: گزشتہ سال، ڈیپ سیک کے اردگرد کی بحثیں زیادہ تر ماڈل کی کارکردگی، اوپن سورس حکمت عملی اور قیمت کی جنگ پر مرکوز رہیں۔ لیکن اگر آپ صرف ‘سرٹیفکیٹ فروخت کرتا ہے یا نہیں’، ‘کیا یہ متعدد ماڈلز کا حامل ہے’، ‘کیا یہ کوڈنگ ایجنٹ بن سکتا ہے’ جیسے پہلوؤں سے ڈیپ سیک کو سمجھیں تو شاید اس کے اصل تبدیل کرنے کا مقصد کم تخمینہ لگائیں۔

یہ مضمون ایک زیادہ جرأت والا جائزہ پیش کرتا ہے: DeepSeek کا مقصد شاید مختصر مدت میں ایپلیکیشن لیول پر آمدنی حاصل کرنا نہیں، بلکہ بنیادی ساخت میں نوآوری کے ذریعے AI ٹریننگ اور انفرنس کی لاگت کی ساخت کو دوبارہ ترتیب دینا اور غیر مباشرة طور پر ایک نئے ہارڈویئر ایکوسسٹم کو فروغ دینا ہے۔ MoE، MLA سے لے کر DSA، CSA، mHC، Engram، اور Dual Path اور TileLang تک، DeepSeek کی ٹیکنالوجی کا راستہ ہمیشہ ایک مرکزی سوال کے گرد گھومتا ہے: HBM، جدید پروسیس، پیکیجنگ اور CUDA ایکوسسٹم کے پابند ہونے کے باوجود، کم ترین اعلیٰ کمپوٹنگ طاقت کے ساتھ زیادہ طاقتور ماڈل کس طرح چلائے جائیں؟

سب سے زیادہ توجہ کا مرکز یہ نہیں کہ "DeepSeek API یا سبسکرپشن سے کئی ارب ڈالر کمائے گا" بلکہ یہ ہے کہ کیا یہ مدل کی صلاحیت، میموری سسٹم اور گھریلو ہارڈوئیر ایکوسسٹم کو ایک ساتھ جوڑ رہا ہے۔ KV Cache کمپریشن HBM پر انحصار کو کم کرتا ہے، NAND اور SSD لمبے وقت کے کیش کو سنبھال سکتے ہیں، LPDDR وزن کے سٹریمنگ لوڈنگ اور Engram ذخیرہ کے لیے استعمال ہو سکتا ہے، جبکہ TileLang CUDA کے دفاعی دیوار کو کمزور کرنے کی کوشش کرتا ہے۔ اگر یہ ابتریاں مستقل طور پر پھیلتی رہیں تو صرف DeepSeek ہی نہیں بلکہ اسٹوریج، ASIC، GPU، نیٹ ورک چپ اور پورے AI انفراسٹرکچر چین کو فائدہ ہوگا۔

بالطبع، "10 ٹریلین ڈالر کے صنعتی ایکوسسٹم" اور "1 ٹریلین ڈالر کی قیمت" کے بارے میں ذکر کیے گئے جائزے اب بھی زیادہ تر تخمینہ پر مبنی ہیں۔ لیکن یہ DeepSeek کو سمجھنے کا ایک اہم راستہ فراہم کرتا ہے: اوپن سورس کا مطلب یہ نہیں کہ تجارتی منافع کو چھوڑ دیا جائے، اور کم قیمت کا مطلب یہ نہیں کہ صرف مارکیٹ کو سبسڈی دی جائے۔ DeepSeek کے لیے، اصل کاروبار شاید ایپلیکیشن لیول پر نہیں، بلکہ زیادہ سے زیادہ ہارڈویئر کو استعمال کے قابل بنانے، اور کم لاگت والے AI کی فراہمی کو ممکن بنانے میں ہے۔ دوسرے الفاظ میں، یہ شاید مدلز کو نہیں بلکہ اگلے نسل کے AI بنیادی ڈھانچے کی ممکنہ حیثیت بیچ رہا ہے۔

نیچے متن ہے:

ChangXin Memory

کیا آپ نے کبھی سوچا ہے کہ DeepSeek کیسے پیسہ کما سکتا ہے، اور شاید بہت زیادہ پیسہ؟

اس نے GLM، MoonShot اور MiniMax کی طرح مقابلہ کرنے والی پروگرامنگ سبسکرپشن منصوبے نہیں لانچ کیے؛ نہ ہی متعدد ماڈل، آڈیو یا ویڈیو ماڈل۔ اب تک، اس کے پاس اپنا ہارنس بھی نہیں ہے، یعنی ماڈل کال، ٹولز کا ایکسیس اور ٹاسک انجام دینے کے لیے باہری رن ٹائم فریم ورک — حالانکہ انہوں نے حال ہی میں متعلقہ ملازمتوں کے لیے ملازمت شروع کر دی ہے تاکہ یہ نظام تعمیر کیا جا سکے۔

اسی دوران، DeepSeek لگتا ہے کہ وہ طویل مدت تک اوپن سورس کے ساتھ مضبوطی سے کھڑا ہے، اور اپنے "راز" کو شیئر کرنے کو تیار ہے۔ کیا یہ پاگل پن نہیں ہے؟ کیا یہ صرف پیسہ برباد کرنا نہیں ہے؟ کیا وہ سرمایہ کار جو اس میں 100 ارب ڈالر کی سرمایہ کاری کرنا چاہتے ہیں، اپنا پیسہ ڈرین میں ڈال رہے ہیں؟

میرے خیال میں، جواب بالکل اُلٹا ہے۔

اگلے، میں ڈیپسیک کے اب تک کے کاموں کی بنیاد پر کچھ مشاہدے پیش کروں گا اور اس کی ایک ایسی حکمت عملی کا تجزیہ کروں گا جو وہ اپنا رہا لگتا ہے۔ ڈیپسیک کے سی ای او لیانگ وین فینگ کا مقصد شاید صرف موجودہ ماڈل کے مقابلے تک محدود نہیں ہے۔ ان کا شاید زیادہ بڑا مقصد ہے: ڈیپسیک کو 1 ٹریلین ڈالر کی قیمت حاصل کرنے اور ایک 10 ٹریلین ڈالر کے نئے صنعت کو فروغ دینے کا موقع مل سکتا ہے۔

ChangXin Memory

TechInAsia کی رپورٹ کے مطابق DeepSeek کی نئی سرمایہ کاری کی لہر

ڈیپسیک کے "ہیرو کی سفر" کا دوبارہ دورہ

ڈیپسیک نے ہمیشہ الٹی ہوا کے خلاف سفر کیا ہے۔ اس نے مستقل طور پر تھوڑے بہتر ماڈلز جاری کرنے اور انہیں فوری منافع کے لیے ایپلیکیشنز میں بدلنے کا انتخاب نہیں کیا، جیسے پروگرامنگ سبسکرپشن۔ 27 جنوری 2025 کو، میں نے ایک وائرل ٹویٹ شیئر کی تھی جس میں میری نظر میں ڈیپسیک کا "ہیرو کا سفر" بیان کیا گیا تھا۔ آج، یہ کہانی مزید دلچسپ ہو گئی ہے۔

جب دوسرے افراد مکمل ماڈلز بنانے کی کوشش کر رہے ہوں، تو DeepSeek نے زیادہ مشکل ٹرین کرنے والے ماڈلز کے مجموعے (Mixture of Experts، MoE) کو منتخب کیا۔

انہوں نے "پہلے اصولوں" کے طریقے کو اپنایا اور PPO تقویتی سیکھنے کے الگورتھم کی جگہ لینے کے لیے نیا GRPO الگورتھم تیار کیا، جو اس وقت کا مقبول ترین لیکن عملی طور پر زیادہ لاگت والے تھا۔

انہوں نے پایا کہ قابل تصدیق انعامات سے سیکھنے کا طریقہ (Reinforcement Learning from Verified Rewards، RLVR) ماڈل کی استدلال کی صلاحیت کو بہتر بنانے کی اہم حکمت عملی ہے۔

انہوں نے "مُلتی ٹوکن پریڈکشن" کے ذریعے ایک آسان انسپکشن ڈیکوڈنگ حکمت عملی بھی پیش کی ہے، جس سے تربیت کے سگنلز زیادہ مکث ہو گئے۔

انہوں نے محدود GPU وسائل کی استعمال کی کارکردگی بڑھانے کے لیے "زیرو ببل" (ZERO bubble) لائن کو بہتر بنایا۔

انہوں نے ایک ماہر بیلنسنگ کنٹرولر جاری کیا ہے جس سے MoE ماڈلز کو ڈپلوی کرنا زیادہ آسان ہو جاتا ہے۔ خاص طور پر، "وائیڈ ایکسپرٹ پیرلل" اسٹریٹجی کے ذریعے، ماڈلز کو بڑے بیچ کے ساتھ سروس دیا جا سکتا ہے، جس سے انفرینس کی لاگت میں کافی کمی آتی ہے۔

انہوں نے KV Cache کی ضرورت کو کم کرنے اور حسابی ضروریات کو جو متن کی لمبائی کے ساتھ بڑھتی ہیں، اتنی قریب مستقل رکھنے کے لیے MLA، DSA، CSA، HCA جیسے مکینزمز تیار کیے۔

انہوں نے انگرام کا ایجاد کیا، جس میں حساب کی کارکردگی کے لیے میموری کا تبادلہ کیا جاتا ہے۔

انہوں نے mHC بھی تخلیق کیا، جس سے ماڈل کے سائز کو بڑھانے پر بھی مستقل تربیت ممکن ہو جاتی ہے۔ اس طرح کے مثالیں کئی ہیں۔

سب سے عام کہانی کی ساخت، "ہیرو کا سفر" میں، ہیرو اپنے سفر کے مقصد کو شروع سے ہی طے نہیں کرتا۔ وہ راستے میں سیکھتا ہے، اپنی حقیقی عظیم مہم کو دریافت کرتا ہے، اور بہت سی رکاوٹوں کے باوجود اسے مکمل کرتا ہے۔ وہ بہت سے شک کرنے والوں سے ملتا ہے، لیکن وہ انہیں نظرانداز کرنے کا انتخاب کرتا ہے۔ وہ بہت سے برے ارادوں والوں سے بھی ملتا ہے۔ اس کے پاس واضح کمزوریاں یا کمیاں ہوتی ہیں، لیکن وہ آخرکار ان مسائل پر قابو پا لیتا ہے اور اپنی مہم مکمل کر لیتا ہے۔ وہ ایسی چیلنجز کا مقابلہ کرتا ہے جو ناممکن لگتی ہیں، لیکن وہ اتحاد بنانے کا طریقہ تلاش کرتا ہے اور محدود اور قیمتی وسائل کو ذکاوت سے استعمال کرنے کا طریقہ سیکھتا ہے۔ یہی بات دیدھاروں کو ہیرو کے لیے تحریک دینے پر مجبور کرتی ہے۔ یہی وجہ ہے کہ DeepSeek کو پیروکار، عالمی احترام اور مخالفین حاصل ہوئے ہیں۔

جیسے کہ میں اگلے مراحل میں تفصیل سے بیان کروں گا، DeepSeek نے اس راستے پر لمبے عرصے سے قدم رکھا ہے اور اپنی نہایت اہم مہم کو逐渐 سمجھنا شروع کر دیا ہے: اس کا مقصد پروگرامنگ سبسکرپشن منصوبوں کی فروخت نہیں بلکہ 10 ٹریلین ڈالر کے چینی AI ہارڈویئر ایکوسسٹم کو فروغ دینا اور اپنی اقدار کو 1 ٹریلین ڈالر تک پہنچانا ہے۔ اس عمل کے دوران، یہ مغربی ہارڈویئر ایکوسسٹم میں بہت سے نئے کھلاڑیوں کے لیے مواقع پیدا کرے گا۔

ChangXin Memory

کچھ دلچسپ KV کیش کے حسابات سے شروع کریں

براہ کرم @SemiAnalysis_ کی تازہ ٹویٹ دیکھیں:

ChangXin Memory

ڈیپسیک نے اس مسئلے کو کسی بھی دوسرے سے بہتر طریقے سے حل کر لیا ہے!

چلیے اب کچھ دلچسپ KV Cache کی حساب کتاب کرتے ہیں۔ فکر نہ کریں، اگر آپ کو ریاضی پسند نہیں تو بھی۔ ہم حال ہی میں جاری کیے گئے KV Cache کیلکولیٹر کا استعمال کرکے دیکھیں گے کہ DeepSeek V4 Pro کتنی KV Cache بچت لاتا ہے، اور اسے تازہ ترین GLM اور Qwen ماڈلز کے ساتھ موازنہ کرتے ہیں۔

میں نے 10 لاکھ کنٹیکس لمبائی کے ساتھ حساب لگایا ہے، فرض کرتے ہوئے کہ KV کی درستگی 8 بٹ ہے اور انڈیکسر کی درستگی 16 بٹ ہے۔ آپ خود بھی اس کیلکولیٹر کو آزماسکتے ہیں：https://kvcache.ai/tools/kv-cache-calculator/

ChangXin Memory

آپ خود کیلکولیٹر بھی کھول کر آزمائیں!

100 لاکھ کنٹیکس لمبائی کے ساتھ:

·ڈیپسیک V4 کے لیے صرف 5.48GB HBM درکار ہے؛

·GLM-5 کو 60GB HBM درکار ہے؛

·Qwen3-235B-A22B کو 89GB HBM کی ضرورت ہوتی ہے۔

نوٹ کریں کہ:

ڈیپسیک ایک 1.6 ٹریلین پیرامیٹر ماڈل ہے؛

· GLM-5 تقریباً 700 ارب پیرامیٹر ہے، اور اس نے DeepSeek کے MLA اور DSA کو اپنایا ہے، لیکن اب تک نئی تھوڑی دباؤ والی توجہ کے طریقہ کار کا استعمال نہیں کیا گیا ہے؛

Qwen3-235B-A22B تقریباً 2350 ارب پیرامیٹرز پر مشتمل ہے اور GQA توجہ کے مکانیزم کا استعمال کرتا ہے۔

ڈیپسیک نے میموری کے دباؤ کو کم کرنے میں بنیادی کردار ادا کیا ہے۔ اگر اس قسم کے ایجادات کو وسیع پیمانے پر اپنایا جائے، تو لمبے دور کے ایجینٹس کے آپریشن کے اخراجات میں کافی کمی آئے گی اور نئے اطلاقات کا نیا سلسلہ شروع ہوگا۔

ChangXin Memory

100 ہزار ٹوکن کے کانٹیکسٹ اور ماڈل سائز کے تحت KV کیش کا استعمال کا موازنہ

"پاگل پن" کے پیچھے کا طریقہ کار

KV کیش کا حجم اتنے چھوٹا کیوں ہے، جبکہ مدل کی معیار کو متاثر نہیں کرتا، یہی وجہ ہے کہ DeepSeek لمبے وقت کے لیے کیش فراہم کرنے کا انتہائی کم قیمت پیش کرتا ہے—اس کی قیمت Sonnet 4.6 کیش ہٹ کی قیمت سے تین فیصد سے بھی کم ہے، اور DeepSeek کیش کو کئی گھنٹوں تک محفوظ رکھ سکتا ہے۔

لمهمات الدورة الطويلة، فإن تخزين KV أصغر يعني أنه يمكن إزالتها بفعالية من حيث التكلفة إلى SSD وإعادة تحميلها عند الحاجة. وهذا يقلل من الاعتماد على HBM. من منظور صناعة الأجهزة الذكية الاصطناعية الصينية، فإن HBM ليست فقط نادرة في العرض، بل هي أيضًا أحد أكثر أنواع الذاكرة صعوبة في التصنيع.

اس کے علاوہ، DeepSeek نے SSD سے KV Cache کو تیزی سے لوڈ کرنے کی ٹیکنالوجی بھی تیار کی ہے، جس کا ذکر اس کے Dual Path پیپر میں کیا گیا ہے۔

ChangXin Memory

ڈیپ سیک V4 کے لیے KV Cache کا دباؤ بہت زیادہ ہے، جس کی وجہ سے یہ مرحلہ شاید ضروری نہیں رہ جائے۔

تو، KV کیش کمپریشن کے سب سے براہ راست فائدہ مند کون ہیں؟

SSD کا بڑے پیمانے پر فراہمی کون کر رہا ہے؟ یاد رکھیں، YMTC (چانگجیانگ اسٹوریج) 3D NAND کے شعبے میں ایک بڑی طاقت بن رہا ہے۔ NAND، DeepSeek کو KV کی دوبارہ کلکولیشن سے بچا سکتا ہے۔ اس کے بدلے، DeepSeek NAND اور SSD کے لیے ایک بڑا مارکیٹ تشکیل دے رہا ہے—جس سے صرف چانگجیانگ اسٹوریج ہی نہیں بلکہ دیگر متعلقہ فرماں بھی فائدہ اٹھائیں گی۔

ChangXin Memory

تاہم، یہ صرف NAND اور SSD کے بارے میں نہیں ہے۔

LPDDR میموری میں بھی بہت بڑا ممکنہ استعمال ہے۔ اسے ماڈل وزنز کو محفوظ رکھنے کے لیے استعمال کیا جا سکتا ہے اور جب ضرورت ہو تو ان وزنز کو HBM میں سٹریمنگ کیا جا سکتا ہے، جس سے HBM کی ضرورت پر دباؤ کم ہوتا ہے۔ SGLang ٹیم نے اس کے بارے میں ایک بہترین بلاگ شائع کیا تھا۔ نیچے دی گئی تصویر اس منصوبے کے طریقہ کار کو ظاہر کرتی ہے۔

ہاں، ہر ایک کو اس کا اپنا طریقہ ہے، لیکن ہمیں اس بات کا یقین ہے کہ ہم اسے سمجھ سکتے ہیں۔

ChangXin Memory

یہ سکیمیٹک ڈائیاگرام دکھاتا ہے کہ میموری کا استعمال کیسے ہو سکتا ہے اور مدل وزن کیسے LPDDR سے HBM میں سٹریم ہوتے ہیں۔ SGLang کے بلاگ کو پڑھنا بہت تجویز کیا جاتا ہے۔

اگر یہ نوآوری انتہائی کمپیکٹ اور نقصان رہित KV Cache کے ساتھ جوڑی جائے تو HBM کی ضرورت میں نمایاں کمی آئے گی۔

تو، چین میں LPDDR کون بنارہا ہے؟ جواب ہے CXMT، جو چانگشین اسٹوریج ہے۔ وہ LPDDR کی رفتار میں صرف تقریباً ایک نصف نسل پیچھے ہیں اور ڈینسٹی میں ایک نسل پیچھے، جو فرق بہت زیادہ نہیں ہے۔

نند کے علاوہ، چین کے AI ایکوسسٹم کے قریبی مستقبل میں LPDDR کی بھی کافی فراہمی ہوگی۔ کیا یہ کمپوٹیشنل دباؤ کو کم کرے گا؟ جواب ہے: ہاں۔ آگے بڑھیں۔

ChangXin Memory

ذکاوت سے میموری کا استعمال کرنے سے GPU / ASIC پر بوجھ کم ہو سکتا ہے

NAND کا استعمال KV Cache کو محفوظ رکھنے کا مقصد آسانی سے سمجھا جا سکتا ہے: یہ KV Cache کو لمبے وقت تک برقرار رکھتا ہے، HBM پر دباؤ کو کم کرتا ہے، اور KV Cache کی دوبارہ حساب کتاب سے بچتا ہے، جس سے GPU اور ASIC کے حسابی بوجھ میں کمی آتی ہے۔

تو، کیا LPDDR بھی اسی طرح کام کر سکتی ہے؟ ایک ایسے ذخیرہ کے طور پر جو وزن کو "آواز پر" HBM تک سٹریم کر سکے، کیا یہ کمپوٹیشنل دباؤ کو مزید کم کر سکتی ہے؟

جواب یہ ہے: ہاں۔

LPDDR کو Engram کہلاتے ہوئے بڑی مقدار میں مواد محفوظ کرنے کے لیے استعمال کیا جا سکتا ہے۔ DeepSeek کی Engram پیپر میں، انہوں نے اشارہ کیا کہ MoE، ماڈل کی صلاحیت کو شرطی کمپوٹیشن کے ذریعے بڑھا سکتا ہے، لیکن Transformer خود میں ایک بنیادی "معلومات کی تلاش" کا مکینزم نہیں رکھتا۔ اس لیے، Transformer عام طور پر تلاش کے عمل کو کم موثر طریقے سے کمپوٹیشن کے ذریعے محاکمہ کرنے پر مجبور ہوتا ہے۔

اس مسئلے کو حل کرنے کے لیے، DeepSeek نے Engram ماڈیول پیش کیا۔ اس نے کلاسیکی N-gram embedding کو جدید بنایا اور اسے ایک ہیش مبنی O(1) تلاش مکانیزم میں تبدیل کر دیا، جس سے ایک مکمل طور پر مکمل کم از کم راستہ بن گیا، جسے وہ شرطی یادداشت (conditional memory) کہتے ہیں۔

یہ طریقہ کار حساب کتاب کو بچاتا ہے، لیکن ایم بیڈنگ ٹیبل کو برقرار رکھنے کے لیے میموری کی ضرورت ہوتی ہے، جو خود بخود بہت بڑا ہو سکتا ہے۔

اس کا بنیادی طور پر ایک مثالی “میموری کے بدلے کمپوٹیشن” کا حل ہے۔ لیکن اس کا اہم خیال یہ ہے کہ: ہر بٹ ڈیٹا کی پڑھائی کی لاگت کے لحاظ سے، “میموری” والی جانب بہت سستی ہے — ایک LPDDR تلاش، ڈیٹا کو متعدد لیئرز کے Transformer سے گزار کر ایک فارورڈ پاس کرنے کے مقابلے میں بہت زیادہ سستی ہے۔ اس لیے، بڑے پیمانے پر، یہ ایک بہت زیادہ فائدہ مند معاوضہ ہے۔

یہ ہے کہ DeepSeek جزوی میموری کے قربانی پر کمپیوٹیشن کی بچت حاصل کرتا ہے۔

ChangXin Memory

جو کچھ قربان کیا جائے وہ قابلِ قدر ہے

چونکہ چینی GPU اور ASIC کے پاس同等水平 کے چپ ٹرانزسٹر ڈینسٹی یا EUV نہیں ہیں، اس لیے وہ اصل FLOPs پاور میں مغربی GPU کے مقابلے میں طویل مدت تک پیچھے رہ سکتے ہیں۔ ان کے پاس ایڈوانسڈ پیکیجنگ میں بھی واضح فرق ہے۔ اس لیے، خاص طور پر جب چین NAND اور LPDDR میموری کی بڑے پیمانے پر تولید کر سکتا ہے، تو اس قسم کا توازن بہت قابلِ توجہ ہے۔

ڈیپسیک کی لمبے مدتی حکمت عملی کا جائزہ

ان نوآوریوں کو دیکھتے ہوئے، ڈیپسیک کا مقصد ابھی کچھ ارب ڈالر کا منافع کمانا نہیں لگتا۔ اس کے گزشتہ بہت سے فیصلوں سے یہ بات واضح ہے: اب تک کوئی بہ متھیڈل مدل نہیں، کوئی آواز مدل نہیں، اور ویڈیو مدل کا تذکرہ بھی نہیں۔

اس کا اصل میں شرکت ایک صبر والا، جس کا ممکنہ طور پر 10 ٹریلین ڈالر کا پیمانہ ہو، لمبا کھیل ہے: ایک متبادل AI ہارڈویئر ایکوسسٹم کو فروغ دینا۔

یہ صرف اس لیے نہیں کہ چینی میموری فارموز چین اور عالمی AI ہارڈویئر مارکیٹ میں اہم کھلاڑی بن سکیں، بلکہ AI ماڈلز کی تربیت اور سروسز کو زیادہ لاگت کے لحاظ سے موثر بنانے کے لیے وسائل کی ضرورت کو بنیادی طور پر کم کرنا ہے۔ اس طرح، بہت سے GPU، ASIC، اور نیٹ ورک چپ فارموز کو عملی اختیارات کے طور پر موقع مل سکتا ہے۔

اسی دوران، یہ نوآوریں مغربی اوپن سورس ایکوسسٹم اور نئی نسل کے ہارڈویئر سازوں کو بھی فائدہ پہنچائیں گیں۔

تمام نشانات پہلے ہی ظاہر ہو چکے ہیں۔ آئیے، DeepSeek کی طرف سے اب تک پیش کی گئی ان نوآوریوں کا تفصیلی جائزہ لیتے ہیں:

1. DeepSeek V2 میں متعارف کرائے گئے ماہر مخلوط ماڈل (MoE) اور MLA

DeepSeek نے V2 میں MoE اور MLA متعارف کرایا۔ MoE نے اعلیٰ ذہانت والے ماڈلز کے تربیت کے لیے درکار کمپیوٹیشن کو تقریباً 40 فیصد سے 50 فیصد تک کم کر دیا؛ MLA نے KV Cache کو 90 فیصد تک کم کر دیا۔

اس سے KV Cache کو SSD پر اُتارنا کافی موثر بن جاتا ہے۔

یہ خیالات سب سے پہلے 2024 کے مئی میں DeepSeek کے ذریعہ جاری کردہ DeepSeek V2 کے پیپر میں ظاہر ہوئے۔ بعد میں، انہوں نے DeepSeek V3 کی تربیت کے لیے بنیاد رکھی۔ اس وقت، DeepSeek نے صرف 2048 کمزور شدہ H800 GPU کا استعمال کرتے ہوئے ایک ایسا سسٹم تربیت دیا جو بند ماڈلز کے درجہ بندی کے قریب تھا۔

ChangXin Memory

2、DSA: DeepSeek V3.2 Exp میں متعارف کرایا گیا، جو لمبے کنٹیکس کے اسکیناریوز میں کمپیوٹیشنل اخراجات کو کم کرنے اور HBM بینڈ ویتھ کے دباؤ کو کم کرنے کے لیے استعمال ہوتا ہے۔

DSA کا مرکزی کردار، اس بات کو یقینی بنانا ہے کہ حساب کی مقدار متن کی لمبائی کے بڑھنے کے ساتھ لگاتار نہ بڑھے۔ درج ذیل گراف دیکھیں: متن کی لمبائی بڑھنے کے ساتھ، DeepSeek-V3.2 کا معالجہ کا وقت تقریباً مستقل رہتا ہے۔

ChangXin Memory

3. mHC: 2025ء کے دسمبر میں ڈیپسیک نے تحقیقی مقالہ "mHC: Manifold-Constrained Hyper-Connections" میں اسے پیش کیا۔

mHC DeepSeek کی طرف سے ماکرو آرکیٹیکچر لیول پر ایک نوآوری ہے، جو Transformer لیyers کے درمیان معلومات کے انتقال کو دوبارہ ڈیزائن کرتی ہے۔

گزشتہ زمانے میں، ریس نیٹ کے بعد، ماڈلز عام طور پر معیاری ریزیڈو کنکشن، یعنی x + F(x) کا استعمال کرتے تھے۔ mHC کا طریقہ، ریزیڈو فلو کو متعدد متوازی معلومات کے چینلز میں توسیع دینا ہے اور ماڈل کو ان چینلز کے درمیان سیکھنے کے قابل مخلوط کرنے کی اجازت دینا ہے۔ اہم بات یہ ہے کہ یہ مخلوط میٹرکس کو دوہری تصادفی میٹرکس کے طور پر پابند کرتا ہے، یعنی اسے سنکہورن-کنپ پروجیکشن کے ذریعے بیرکھوف بہت سطح پر محدود کرتا ہے۔ اس طرح، ریاضیاتی طور پر یقینی بنایا جاتا ہے کہ ماڈل کتنی بھی گہرا ہو، سگنل کا آمپلیٹیو مستقل رہے۔

یہ پہلے بے حد ہائپر-کنکشنز کے سامنے آنے والی بھیانک عدم استحکام کی پیچیدگی کو حل کرتا ہے۔ ہائپر-کنکشنز کو ابتدائی طور پر بائٹڈانس نے پیش کیا تھا، لیکن بے حد حالت میں، سگنل فوری تقویت 27 ارب پیرامیٹرز کے سائز پر 3000 گنا تک بڑھ جاتی تھی، جس کے نتیجے میں تربیت مکمل طور پر ناکام ہو جاتی تھی۔

mHC کی حساب کتاب کا اخراج بہت کم ہے: یہ صرف تقریباً 6.7% کا اصل تربیت کے وقت کا اخراج لاتی ہے، کیونکہ یہ توجہ لیور یا FFN لیور کے FLOPs کو تبدیل نہیں کرتی، بلکہ صرف ان لیورز کے آؤٹ پٹ کے رُٹنگ کو بدل دیتی ہے۔

لیکن اس سے حاصل ہونے والی پرفارمنس میں بہت بڑی بہتری آئی ہے: 27 ارب پیرامیٹرز کے سائز پر، mHC نے BIG-Bench Hard ریزنگ ٹاسکس میں 7.2 اعداد، DROP میں 3.2 اعداد، GSM8K ریاضی ٹاسکس میں 2.8 اعداد، اور MMLU جامع علم ٹاسکس میں 1.4 اعداد کی بہتری کی ہے۔ اور یہ تمام بہتریاں ایک جیسے ماڈل سائز، تقریباً ایک جیسے کمپوٹیشنل بجٹ کے تحت حاصل کی گئی ہیں۔

بنیادی طور پر، mHC ایک زیادہ غنی اور بیانیہ کراس لیئر معلومات رُٹنگ ٹاپولوجی فراہم کرکے، تقریباً اضافی FLOPs کے بغیر اعلیٰ یونٹ پیرامیٹر ذہانت حاصل کرتا ہے۔

ChangXin Memory

mHC ایک پیچیدہ آرکیٹیکچر ڈیزائن ہے، لیکن یہ زیادہ مستحکم تربیت کے عمل اور زیادہ یونٹ پیرامیٹر ذہانت فراہم کرتا ہے۔

4، CSA، HSA: DeepSeek نے 2026 کے اپریل میں V4 میں متعارف کرایا۔

CSA اور HSA کا مقصد، KV Token کو دبانے کے ذریعے KV Cache کی ضرورت میں 90 فیصد کمی لانا اور درکار FLOPs کو نمایاں طور پر کم کرکے HBM اور GPU / ASIC دونوں پر دباؤ کو کم کرنا ہے۔

ChangXin Memory

5، اینگرام: ڈیپسیک نے 2026 کے پہلے تہائی میں متعارف کرایا، جو بنیادی طور پر کمپوٹیشنل کارکردگی کے لیے میموری، یعنی LPDDR میموری، کے ساتھ تبادلہ ہے۔

جیسے کہ نیچے کی تفصیلی گراف میں دکھایا گیا ہے، مجموعی پیرامیٹر بجٹ کے ایک جیسے ہونے کے باوجود، اینگرام نے واضح کارکردگی میں اضافہ کیا ہے۔

ChangXin Memory

6، اینگرام: ڈیپسیک نے 2026 کے پہلے تिमاہی میں متعارف کرایا، جو بنیادی طور پر کمپوٹیشنل کارکردگی کے لیے کچھ حد تک میموری، یعنی LPDDR میموری، کے ساتھ تبادلہ ہے۔

ChangXin Memory

یہ DeepSeek کی V4 پیپر میں ہارڈویئر فرنڈز کو دی گئی تجاویز ہیں۔ میں یقین کے ساتھ کہہ سکتا ہوں کہ آف لائن بات چیت میں ان کی فیڈ بیک مزید زیادہ ہوگی۔

7، ٹائل لینگ میں سرمایہ کاری بھی ایک ہی سمت کی طرف اشارہ کرتی ہے: ڈیپ سیک صرف اپنی کمپوٹیشنل باتھ نیک کو حل نہیں کر رہا، بلکہ چینی ہارڈویئر ایکوسسٹم کو مغربی ایکوسسٹم کے ساتھ مقابلہ کرنے کی صلاحیت فراہم کرنے کی کوشش کر رہا ہے۔

TileLang کے ذریعے، ڈیولپرز صرف ایک بار kernel — یعنی کمپیوٹیشن کے لیے بنیادی کوڈ — لکھ سکتے ہیں، اور اسے متعدد ہارڈویئر پلیٹ فارمز پر کام کرنے کے لیے استعمال کر سکتے ہیں، شرط یہ ہے کہ ان پلیٹ فارمز کے لیے TileLang بیک اینڈ موجود ہو۔

میں متوقع کرتا ہوں کہ دیگر چینی AI لیبز بھی تدریجاً شامل ہو جائیں گے۔ اس سے چینی ہارڈویئر فارموز کو غیر مستقیم طریقے سے 'CUDA ماحولیاتی دیوار' کا مقابلہ کرنے میں مدد ملے گی۔ اس کے علاوہ، یہ مغربی ہارڈویئر، جیسے AMD، کی صلاحیت کو بھی آزاد کرے گا۔

یہ قابل ذکر ہے کہ چین کے کئی AI ہارڈویئر پلیٹ فارمز پہلے سے CUDA مطابقت یا CUDA ترجمہ لیئر فراہم کر رہے ہیں۔ مثال کے طور پر، موئر خطوط، موکسی، بی رن، اور تین شو زھی شن، تمام CUDA کی اعلیٰ مطابقت حاصل کرنے کے لیے ترجمہ لیئر استعمال کرنے والے چینی چپ فارموز ہیں۔ اس لیے نظریہ طور پر، انہیں TileLang کی ضرورت نہیں پڑ سکتی۔

ChangXin Memory

بڑے پیمانے پر تقویتی سیکھنا اور RSI

جب ڈیپسیک کو زیادہ کمپیوٹنگ پاور کے ذرائع، یعنی زیادہ ہارڈویئر کے اختیارات ملیں گے، اور مدل کی خود کمپیوٹنگ وسائل کی ضرورت کم ہو جائے گی، تو وہ زیادہ طموحی تربیت کے منصوبوں، خاص طور پر تقویت سیکھنے کے بعد کی تربیت کو آگے بڑھا سکے گا۔

ایک مضبوط سیکھنے کے لیے بہت زیادہ ٹریجکٹریز بنانے کی ضرورت ہوتی ہے، جس کا مطلب ہے کہ تریلیونز ٹوکنز کو جنریٹ کیا جائے۔ یہ عمل جلد ہی بہت مہنگا ہو جائے گا۔ مزید برآں، اگر آپ 1 ملین کنٹیکس لمبائی والے ماڈل کو ٹرین کرنا چاہتے ہیں، تو آپ کو اسی لمبائی کی ٹریجکٹریز جنریٹ کرنے کی ضرورت ہوگی۔ صرف اس طویل ٹریجکٹریز پر ماڈل کو ٹرین کرکے ہی لمبے دورانیے والے ٹاسکس کو حقیقی طور پر سپورٹ کیا جا سکتا ہے۔

اس کے علاوہ، ہارڈویئر کے اختیارات میں اضافے کے ساتھ، ڈیپسیک کے پاس دستیاب ہارڈویئر وسائل بھی زیادہ ہوں گے، جس سے خودکار تحقیق، یعنی RSI کو فروغ ملے گا۔ RSI کا مطلب ہے کہ AI خود تجربات ڈیزائن کرتا ہے اور انہیں انجام دیتا ہے۔ اس طریقہ کار میں بہت زیادہ تجربہ و غلطی شامل ہوگی اور لاگت بھی تیزی سے بڑھ جائے گی۔ لیکن مکمل ماڈل ڈیزائن اسپیس کو دریافت کرنے کے لیے RSI انتہائی ضروری ہے۔ AGI کی طرف جانے اور اس کے بعد ASI کی طرف جانے سے پہلے، ڈیپسیک کو RSI کی صلاحیت حاصل ہونی چاہیے۔

ڈیپسیک آج جو کر رہا ہے، پورا صنعت کل اس کے ساتھ چل پڑے گا

ڈیپسیک کے ماہر مخلوط ماڈل، MLA، DSA جیسے شعبوں میں نوآوریوں کو عالمی اور چین کے دیگر AI لیبز نے تدریجاً اپنا لیا ہے۔

مثال کے طور پر، GLM سیریز ماڈلز کے تخلیق کار ZAI نے MLA اور DSA کا استعمال کیا ہے۔ کیمی، جو مون شٹ ہے، نے بھی MLA کو اپنایا ہے اور صاف طور پر اعتراف کیا ہے کہ اس کی ساخت DeepSeek کی ساخت پر مبنی ہے۔ اس کے برعکس، DeepSeek نے Muon آپٹیمائزر کا استعمال کیا ہے، جبکہ Muon کو سب سے پہلے کیمی (مون شٹ) نے بڑے پیمانے پر تربیت میں اپنایا تھا۔

یہ بات قابل ذکر ہے کہ:

MoE کو 2017 میں گوگل نے سب سے پہلے پیش کیا، اور اہم مصنف نوم شازیر تھے۔ دیپسیک کا اہم کردار MoE کے بڑے پیمانے پر استعمال اور اپنے مخصوص طریقوں کی ایجاد میں ہے۔

Muon، جو کہ Newton-Schulz آپٹیمائزر کے ذریعے MomentUm Orthogonalized ہے، 2024 کے آخر میں ماشینی سیکھنے کے محقق Keller Jordan نے پیش کیا۔ Kimi (Moonshot) ٹیم پہلی ٹیم تھی جس نے اسے بڑے پیمانے پر تربیت کے لیے استعمال کیا۔

پیسہ کمانے کا مسئلہ کیا ہوگا؟

ہم OpenAI کے دلچسپ مثال کو دیکھ سکتے ہیں۔

اوپن اے آئی کو ایم ڈی اور سیریبراس کے شیئرز خریدنے کے لیے کم قیمت پر وارنٹس / آپشنز حاصل ہوئے ہیں، جو ان کی کمپوٹنگ کنسلپشن کے اہم مقامات سے منسلک ہیں۔ ایم ڈی اور سیریبراس کے لیے یہ بہت فائدہ مند معاہدہ ہے، کیونکہ جب بھی اوپن اے آئی ان کے ہارڈویئر کا استعمال کرنے کا عہد کرے گا، تو ان کی لمبے عرصے تک کامیابی کا امکان بڑھ جائے گا۔

AMD کے اعلان میں ایک عبارت ہے:

معاہدے کے حصے کے طور پر، دونوں طرف کے سٹریٹجک مفادات کو مزید بہتر بنانے کے لیے، AMD نے OpenAI کو 160 ملین AMD عام شیئرز خریدنے کا حق دیا ہے، جو مخصوص اہمیت کے حصول کے ساتھ ساتھ قابلِ ادائیگی ہوں گے۔ پہلا سلسلہ ابتدائی 1 گیگاواٹ ڈپلومنٹ مکمل ہونے پر قابلِ ادائیگی ہوگا، جبکہ بعد کے سلسلے 6 گیگاواٹ تک خریداری کے توسیع کے ساتھ ساتھ قابلِ ادائیگی ہوں گے۔ قابلِ ادائیگی کی شرائط AMD کے مخصوص شیئر قیمت کے مقاصد حاصل کرنے اور OpenAI کے AMD کو ضروری تکنیکی اور تجارتی اہمیت کو حاصل کرنے پر بھی منحصر ہیں۔

ChangXin Memory

میں متوقع کرتا ہوں کہ ڈیپسیک بھی چین کے کئی میموری، ASIC، CPU اور نیٹ ورک ٹیکنالوجی سٹیک فرماوں کے ساتھ اسی طرح کے معاہدے کرے گا اور ان فرماوں کے ہارڈ ویئر سٹیک کو لیڈنگ AI ورک لود کے لیے مناسب بنانے کے لیے ان کے ساتھ گہرا تعاون کرے گا۔

مغربی ممالک سمیت مشرقی ایشیائی اتحادیوں کے تمام AI اسٹاکس کی کل بارش کی قیمت پہلے ہی 10 ٹریلین ڈالر سے زیادہ ہو چکی ہے، اس طرح کا “تعاون کے ذریعے ملکیت کا فائدہ حاصل کرنا” DeepSeek کو چین کے لیے ایک اسی طرح کا بڑا صنعت قائم کرنے اور اس میں اپنا حصہ حاصل کرنے کا موقع فراہم کرے گا، جس سے آخرکار اس کی 1 ٹریلین ڈالر کی قیمت حاصل ہوگی۔

یہ نہ صرف ڈیپسیک کو روایتی ایپ سبسکرپشن کاروبار سے کہیں زیادہ کمانے کا موقع دے گا، بلکہ اس کا مقصد بھی حاصل ہو جائے گا کہ "ہر کسی تک AGI پہنچے"۔ لیانگ وین فینگ جیم سیمنز کے سچے شائقین ہیں اور کافی ذکی سرمایہ کار ہیں، وہ اس نقطہ کو ضائع نہیں کر سکتے۔

اگر آپ DeepSeek کے اب تک کے تمام کاموں کو واپس دیکھیں، تو صرف ایک ہی وضاحت منطقی ہے۔

ChangXin Memory

یہ کلیدی AI اسٹاک ہیں۔ گراف میں ہائپر اسکیلرز، یعنی بہت بڑے کلاؤڈ فراہم کنندگان، اور بہت سے دیگر متعلقہ کمپنیاں شامل نہیں ہیں۔

اصل لنک