ڈیپ سیک V4 اوپن سورس ماڈل 1.6 ٹریلین پیرامیٹرز اور MIT لائسنس کے ساتھ لانچ ہو گیا

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
آن-چین خبروں نے 24 اپریل (UTC+8) کو گزارش کیا کہ ڈیپ سیک نے اپنے اوپن سورس V4 سیریز ماڈلز کا پریویو MIT لائسنس کے تحت شروع کیا۔ V4-Pro اور V4-Flash MoE ماڈلز میں بالترتیب 1.6 ٹریلین اور 284 بلین پیرامیٹرز ہیں، جن میں 1 ملین ٹوکن کنٹیکس کی سپورٹ شامل ہے۔ V4-Pro، V3.2 کے مقابلے میں انفرنس FLOPs میں 73% اور KV کیش میموری میں 90% کمی لاتا ہے۔ وزن Hugging Face اور ModelScope پر دستیاب ہیں۔ نئے ٹوکن لسٹنگز بہتر کارکردگی اور اوپن ایکسس کے فائدے حاصل کر سکتی ہیں۔

ME نیوز کے مطابق، 24 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، DeepSeek نے اپنے اوپن سورس V4 سیریز کا پیش منظر جاری کیا ہے، جس کی لائسنس MIT ہے، اور وزن اب Hugging Face اور ModelScope پر دستیاب ہیں۔ اس سیریز میں دو MoE ماڈل شامل ہیں: V4-Pro جس کے کل پیرامیٹرز 1.6T ہیں اور ہر ٹوکن پر 49B (490 ارب) فعال ہوتے ہیں؛ V4-Flash جس کے کل پیرامیٹرز 284B (2840 ارب) ہیں اور فعال پیرامیٹرز 13B (130 ارب) ہیں۔ دونوں ماڈل 1M ٹوکن کے کنٹیکس کو سپورٹ کرتے ہیں۔ آرکیٹیکچر میں تین اہم بہتریاں: مکسڈ اٹینشن میکنزم (کمپریسڈ سپارس اٹینشن CSA + ہائیلی کمپریسڈ اٹینشن HCA) نے لمبے کنٹیکس کے لیے لاگت میں کافی کمی لائی ہے، جس کے نتیجے میں 1M کنٹیکس پر V4-Pro کا ہر ٹوکن کا انفرینس FLOPs صرف V3.2 کا 27% ہے، اور KV کیش (انفرینس کے دوران تاریخی معلومات کو ذخیرہ کرنے کے لیے GPU میموری میں استعمال ہونے والا روم) صرف V3.2 کا 10% ہے؛ مینی فولڈ کنسترینٹڈ سپر کنکشن mHC نے روایتی ریزیڈوئل کنکشن کو بدل دیا ہے، جس سے لیرز کے درمیان سگنل پروپگیشن کی استحکام بڑھائی گئی ہے؛ تربیت کے لیے Muon آپٹمائزر استعمال کیا گیا ہے تاکہ收敛 تیز ہو۔ پری-ٹریننگ ڈیٹا 32T ٹوکن سے زائد ہے۔ پوسٹ-ٹریننگ دو مراحل پر مشتمل ہے: پہلے SFT اور GRPO رینفورسمنٹ لرننگ کا استعمال کرتے ہوئے مختلف شعبوں کے ماہرین کو الگ الگ تربیت دی جاتی ہے، پھر آن لائن دستور سازی کے ذریعے انہیں ایک واحد ماڈل میں ضم کر دیا جاتا ہے۔ V4-Pro-Max (سب سے زیادہ انفرینس طاقت والی موڈ) دعوٰی کرتا ہے کہ وہ موجودہ وقت کا سب سے طاقتور اوپن سورس ماڈل ہے، جس کا کوڈنگ بینچ مارک بالآخر سطح تک پہنچ چکا ہے، اور انفرینس اور اجینٹ طور پر کام کرنے میں بند ماڈلز سے فرق بڑھتے جا رہا ہے۔ V4-Flash-Max، اگر تھکاوٹ بجٹ دیا جائے تو انفرینس پرفارمنس Pro کے قریب آ جاتا ہے، لیکن صرف علم پر مبنی اور پیچیدہ اجینٹ طور پر کام کرنے والے امور میں اس کا پیرامیٹر سائز محدود رکھتا ہے۔ وزن FP4+FP8 مکسڈ پریسشن میں ذخیرہ کئے گئے ہیں۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔