1.6 ٹریلین پیرامیٹرز اور MIT لائسنس کے ساتھ DeepSeek V4 سیریز جاری

iconChainthink
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
آن-چین خبروں نے 24 اپریل کو ڈیپ سیک نے MIT لائسنس کے تحت V4 سیریز جاری کرنے کی اطلاع دی۔ یہ ماڈل، جو اب Hugging Face اور ModelScope پر دستیاب ہیں، میں V4-Pro (1.6 ٹریلین پیرامیٹرز) اور V4-Flash (284 ارب پیرامیٹرز) شامل ہیں، جو دونوں 1 ملین ٹوکن کنٹیکس کو سپورٹ کرتے ہیں۔ V4 سیریز میں تین آرکیٹیکچرل اپگریڈز شامل ہیں، جن میں ایک ہائبرڈ توجہ مکانزم بھی شامل ہے جو لمبے کنٹیکس کے اخراجات کو کم کرتا ہے۔ V4-Pro، V3.2 کے FLOPs کا صرف 27% اور اس کے KV کیش میموری کا صرف 10% استعمال کرتا ہے۔ تربیت 32 ٹریلین ٹوکنز پر کی گئی، اور ماڈلز SFT، GRPO، اور آن لائن ڈسٹلیشن کا استعمال کرتے ہیں۔ نئے ٹوکن لسٹنگز اس بہتر شدہ کارکردگی سے فائدہ اٹھا سکتے ہیں۔

ChainThink کی خبر، 24 اپریل، افسرانہ معلومات کے مطابق، DeepSeek نے ایم آئی ٹی لائسنس کے تحت V4 سیریز کا پیش منظر جاری کیا ہے، اور ماڈل وزن Hugging Face اور ModelScope پر اپ لوڈ کر دیے گئے ہیں۔


اس سیریز میں دو MoE ماڈل شامل ہیں، جن میں V4-Pro کے کل پیرامیٹرز 1.6 ٹریلین ہیں، جبکہ ہر ٹوکن پر 490 ارب پیرامیٹرز فعال ہوتے ہیں؛


V4-Flash کے کل پیرامیٹرز 2840 ارب ہیں، ہر ٹوکن کے لیے 130 ارب پیرامیٹرز فعال ہوتے ہیں، اور دونوں 1M ٹوکن کے کنٹیکس کو سپورٹ کرتے ہیں۔


اس سیریز کی تین اپ گریڈز ہیں: مکسڈ ایٹینشن میکنزم (کمپریسڈ اسپارس ایٹینشن CSA+ ہائیلی کمپریسڈ ایٹینشن HCA) لمبے کانٹیکسٹ کے اخراجات کو کافی حد تک کم کرتا ہے، 1M کانٹیکسٹ کے سیناریو میں، V4-Pro کا ایک ٹوکن انفرنس FLOPs صرف V3.2 کا 27% ہے، KV کیش کی میموری استعمال صرف V3.2 کا 10% ہے؛


مینیفولڈ کنسترینٹس سپر کنکٹڈ mHC کو روایتی ریزیڈوئل کنکشن کی جگہ استعمال کیا گیا ہے، جس سے لیyers کے درمیان سگنل پروپیگیشن کی استحکام بڑھ جاتا ہے؛ تربیت کے لیے Muon آپٹیمائزر استعمال کیا گیا ہے تاکہ احاطہ تیز ہو۔ اس ماڈل کے لیے پری ٹریننگ ڈیٹا 32T ٹوکن سے زائد ہے۔


ٹریننگ کے بعد دو مراحل پر مشتمل ہوتی ہے: پہلے SFT اور GRPO ری انفورسمنٹ لرننگ کے ذریعے مختلف شعبوں کے ماہر مدلز کو ٹرین کیا جاتا ہے، اور پھر آن لائن ڈسٹلیشن کے ذریعہ انہیں ایک نہائی مدل میں ملایا جاتا ہے۔


جس میں V4-Pro-Max خود کو موجودہ طور پر سب سے طاقتور اوپن سورس ماڈل کہتا ہے، جس کا کوڈنگ بینچ مارک لیڈنگ لیول تک پہنچ گیا ہے، اور انفرینس اور ایجنٹ کے کاموں میں بند ماڈلز کے ساتھ فرق کافی کم ہو گیا ہے؛


V4-Flash-Max کو کافی سوچنے کا بجٹ ملنے کے بعد Pro کے قریب استدلال کی کارکردگی دکھاتا ہے، لیکن صرف جانکاری اور پیچیدہ ایجنٹ کے کاموں میں اس کا پیرامیٹر سائز محدود ہے۔ ماڈل وزن FP4+FP8 مکسڈ پریسیژن میں محفوظ ہیں۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔