ڈیپ سیک V4 کی ٹیکنیکل تفصیلات سامنے آ گئیں: 1.6T پیرامیٹرز، 384 ماہرین جن میں سے 6 فعال ہو رہے ہیں

icon币界网
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
22 اپریل (UTC+8) کو آن چین خبریں سامنے آئیں، جب پرنسٹن کے پی ایچ ڈی طالب علم یفان زھانگ نے X پر DeepSeek V4 کے مکمل اسپیکس شیئر کیے۔ V4 میں 1.6 ٹریلین پیرامیٹرز، DSA2 توجہ مکینزم، 384 MoE ماہرین جن میں سے ہر قدم پر 6 فعال ہوتے ہیں، اور 1 ملین ٹوکن کا کنٹیکس شامل ہے۔ زھانگ DeepSeek سے منسلق نہیں ہیں، جس نے اب تک کوئی تبصرہ نہیں کیا۔ نیٹ ورک اپگریڈ کی تفصیلات بڑے پیمانے پر کارکردگی میں بہتری کی نشاندہی کرتی ہیں۔

کریپٹو نیوز کے مطابق، 22 اپریل (UTC+8) کو، ایک ڈیپ چیک Beating کی نگرانی کے مطابق، پرنسٹن کے ڈاکٹریٹ طالب علم یفان زہانگ نے X پر DeepSeek V4 کی ٹیکنیکل تفصیلات اپڈیٹ کیں۔ انہوں نے 19 اپریل کو "V4 اگلے ہفتے" کا اعلان کیا تھا اور تین آرکیٹیکچر کمپوننٹس کے نام درج کیے تھے، جبکہ آج رات انہوں نے مکمل پیرامیٹرز کی جدول شائع کی اور پہلی بار ایک 285B پیرامیٹرز والی ہلکی ورژن V4-Lite کے وجود کا انکشاف کیا۔ V4 کے کل پیرامیٹرز 1.6T ہیں۔ توجہ کا مکینزم DSA2 ہے، جو DeepSeek کے پہلے V3.2 میں استعمال ہونے والے DSA (DeepSeek Sparse Attention) اور اس سال کے آغاز میں پیپر میں پیش کیے گئے NSA (Native Sparse Attention) دونوں اسپارس توجہ کے منصوبوں کو ملا کر بنایا گیا ہے، head-dim 512، جس کے ساتھ Sparse MQA اور SWA (سلائڈنگ ونڈو توجہ) استعمال ہوتا ہے۔ MoE لیر میں کل 384 ماہرین ہیں، جن میں سے ہر بار صرف 6 فعال ہوتے ہیں، Fused MoE Mega-Kernel استعمال کرتے ہوئے۔ ریزڈوئل کنکشنز میں Hyper-Connections کو جاری رکھا گیا ہے۔ تربیت کے حوالے سے پہلی بار انکشاف کی گئی تفصیلات میں شامل ہیں: آپٹمائزر Muon (جو Newton-Schulz آرٹھوگونلائزیشن کو مومنٹم اپڈیٹس پر لاگو کرتا ہے)، پری-ٹریننگ کنٹیکس لمبائی 32K، اور تقویت سیکھنے کے مرحلے میں GRPO استعمال کرتے ہوئے KL ڈائورجنس کارکشن شامل کیا گیا۔ آخری کنٹیکس لمبائی 1M تک وسعت دے دی گئی۔ ماڈل صرف متن پر مبنی ہے۔ زہانگ DeepSeek میں ملازم نہیں ہیں، اور DeepSeek نے اس معلومات پر کوئي رد عمل نہیں دیا۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔