ڈیپ سیک V4 کے ٹیکنیکل اسپیکس کا انکشاف: 1.6T پیرامیٹرز، 384 ماہرین جو 6 فعال ہو رہے ہیں

iconKuCoinFlash
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
22 اپریل (UTC+8) کو پرنسٹن کے پی ایچ ڈی طالب علم یفان جنگ نے X پر ڈیپسیک V4 کے ٹیکنیکل انڈیکس شیئر کیے۔ اس ماڈل میں 1.6 ٹریلین پیرامیٹرز، 384 MoE اسپرٹس جن میں سے ہر اسٹیپ پر 6 فعال ہوتے ہیں، اور ایک 285B پیرامیٹر والی V4-Lite ورژن ہے۔ تربیت کے لیے Muon آپٹیمائزر، 32K پر-ٹریننگ کنٹیکس لمبائی، اور 1M آخری کنٹیکس لمبائی استعمال کی گئی۔ ڈیپسیک نے تصدیق نہیں کی ہے۔ مارکیٹ جذبات مختلط رہے ہیں، جہاں خوف اور لالچ کا انڈیکس معتدل عدم یقین ظاہر کرتا ہے۔

ME نیوز کے مطابق، 22 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، پرنسٹن کے ڈاکٹریٹ طالب علم یفان زھانگ نے X پر DeepSeek V4 کی ٹیکنیکل تفصیلات اپڈیٹ کیں۔ انہوں نے 19 اپریل کو "V4 اگلے ہفتے" کا اعلان کیا تھا اور تین آرکیٹیکچر کمپوننٹس کے نام درج کیے تھے، جبکہ آج رات انہوں نے مکمل پیرامیٹر ٹیبل شیئر کیا اور پہلی بار ایک 285B پیرامیٹر والی ہلکی ورژن V4-Lite کے وجود کا انکشاف کیا۔ V4 کے کل پیرامیٹرز 1.6T ہیں۔ توجہ کا مکانیزم DSA2 ہے، جو DeepSeek کے پہلے V3.2 میں استعمال ہونے والے DSA (DeepSeek Sparse Attention) اور اس سال کے آغاز میں پیپر میں پیش کیے گئے NSA (Native Sparse Attention) دونوں اسپارس توجہ کے طریقوں کو ملا کر بنایا گیا ہے، head-dim 512، جس کے ساتھ Sparse MQA اور SWA (سلائڈنگ ونڈو توجہ) استعمال ہوتی ہے۔ MoE لیئرز میں کل 384 اسپیئرز ہیں، جن میں سے ہر بار صرف 6 فعال ہوتے ہیں، Fused MoE Mega-Kernel استعمال کرتے ہوئے۔ ریزڈوئل کنکشنز میں Hyper-Connections کو برقرار رکھا گیا ہے۔ تربیت کے حوالے سے پہلی بار انکشاف کردہ تفصیلات میں شامل ہیں: آپٹمائزر Muon (جو Newton-Schulz آرٹھوگونلائزیشن کو مومنٹم اپڈیٹس پر لاگو کرتا ہے)، پری-ٹریننگ کنٹیکس لمبائی 32K، اور رینفورسمنٹ لرننگ مرحلے میں GRPO استعمال کرتے ہوئے KL ڈائورجنس کارکشن شامل کیا گیا۔ آخری کنٹیکس لمبائی 1M تک وسعت دی گئی۔ ماڈل صرف ٹیکسٹ پر مبنی ہے۔ زھانگ DeepSeek میں ملازم نہیں ہیں، اور DeepSeek نے اس معلومات پر کوئی رد عمل نہیں دیا۔ (ذرائع: BlockBeats)

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔