1.6 ٹریلین پیرامیٹرز اور MIT لائسنس کے ساتھ DeepSeek V4 سیریز جاری

ChainThink کی خبر، 24 اپریل، افسرانہ معلومات کے مطابق، DeepSeek نے ایم آئی ٹی لائسنس کے تحت V4 سیریز کا پیش منظر جاری کیا ہے، اور ماڈل وزن Hugging Face اور ModelScope پر اپ لوڈ کر دیے گئے ہیں۔

اس سیریز میں دو MoE ماڈل شامل ہیں، جن میں V4-Pro کے کل پیرامیٹرز 1.6 ٹریلین ہیں، جبکہ ہر ٹوکن پر 490 ارب پیرامیٹرز فعال ہوتے ہیں؛

V4-Flash کے کل پیرامیٹرز 2840 ارب ہیں، ہر ٹوکن کے لیے 130 ارب پیرامیٹرز فعال ہوتے ہیں، اور دونوں 1M ٹوکن کے کنٹیکس کو سپورٹ کرتے ہیں۔

اس سیریز کی تین اپ گریڈز ہیں: مکسڈ ایٹینشن میکنزم (کمپریسڈ اسپارس ایٹینشن CSA+ ہائیلی کمپریسڈ ایٹینشن HCA) لمبے کانٹیکسٹ کے اخراجات کو کافی حد تک کم کرتا ہے، 1M کانٹیکسٹ کے سیناریو میں، V4-Pro کا ایک ٹوکن انفرنس FLOPs صرف V3.2 کا 27% ہے، KV کیش کی میموری استعمال صرف V3.2 کا 10% ہے؛

مینیفولڈ کنسترینٹس سپر کنکٹڈ mHC کو روایتی ریزیڈوئل کنکشن کی جگہ استعمال کیا گیا ہے، جس سے لیyers کے درمیان سگنل پروپیگیشن کی استحکام بڑھ جاتا ہے؛ تربیت کے لیے Muon آپٹیمائزر استعمال کیا گیا ہے تاکہ احاطہ تیز ہو۔ اس ماڈل کے لیے پری ٹریننگ ڈیٹا 32T ٹوکن سے زائد ہے۔

ٹریننگ کے بعد دو مراحل پر مشتمل ہوتی ہے: پہلے SFT اور GRPO ری انفورسمنٹ لرننگ کے ذریعے مختلف شعبوں کے ماہر مدلز کو ٹرین کیا جاتا ہے، اور پھر آن لائن ڈسٹلیشن کے ذریعہ انہیں ایک نہائی مدل میں ملایا جاتا ہے۔

جس میں V4-Pro-Max خود کو موجودہ طور پر سب سے طاقتور اوپن سورس ماڈل کہتا ہے، جس کا کوڈنگ بینچ مارک لیڈنگ لیول تک پہنچ گیا ہے، اور انفرینس اور ایجنٹ کے کاموں میں بند ماڈلز کے ساتھ فرق کافی کم ہو گیا ہے؛

V4-Flash-Max کو کافی سوچنے کا بجٹ ملنے کے بعد Pro کے قریب استدلال کی کارکردگی دکھاتا ہے، لیکن صرف جانکاری اور پیچیدہ ایجنٹ کے کاموں میں اس کا پیرامیٹر سائز محدود ہے۔ ماڈل وزن FP4+FP8 مکسڈ پریسیژن میں محفوظ ہیں۔