DeepSeek V4 के तकनीकी विवरण सामने आए: 1.6T पैरामीटर, 384 विशेषज्ञ जिनमें से 6 सक्रिय हैं

icon币界网
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
22 अप्रैल (UTC+8) को ऑन-चेन खबर सामने आई, जब प्रिंसटन के डॉक्टरेट छात्र यिफान ज़हांग ने X पर DeepSeek V4 की पूरी स्पेसिफिकेशन्स साझा कीं। V4 में 1.6 ट्रिलियन पैरामीटर, एक DSA2 ध्यान तंत्र, 384 MoE विशेषज्ञ और प्रत्येक कदम पर 6 सक्रिय, और 1 मिलियन टोकन कॉन्टेक्स्ट है। ज़हांग DeepSeek से संबंधित नहीं हैं, जिसने अभी तक कोई टिप्पणी नहीं की है। नेटवर्क अपग्रेड के विवरण से बड़े प्रदर्शन में सुधार का सुझाव मिलता है।

CoinDesk की समाचार के अनुसार, 22 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, प्रिंसटन के डॉक्टरेट छात्र Yifan Zhang ने X पर DeepSeek V4 के तकनीकी विवरण को अपडेट किया। उन्होंने 19 अप्रैल को “V4 अगले सप्ताह” की घोषणा की और तीन आर्किटेक्चर कंपोनेंट्स के नाम लिस्ट किए, आज रात उन्होंने पूरी पैरामीटर टेबल प्रकाशित की और साथ ही एक 285B पैरामीटर वाले हल्के संस्करण V4-Lite के मौजूदगी का पहली बार खुलासा किया। V4 की कुल पैरामीटर संख्या 1.6T है। ध्यान तंत्र DSA2 है, जो DeepSeek द्वारा V3.2 में उपयोग किए जाने वाले DSA (DeepSeek Sparse Attention) और इस साल की शुरुआत में पेपर में प्रस्तुत NSA (Native Sparse Attention) दोनों स्पार्स अटेंशन समाधानों को मिलाता है, head-dim 512, Sparse MQA और SWA (स्लाइडिंग विंडो अटेंशन) के साथ। MoE परत में कुल 384 एक्सपर्ट हैं, जिनमें से प्रत्येक बार 6 सक्रिय होते हैं, Fused MoE Mega-Kernel का उपयोग करते हुए। रिजिड्यूअल कनेक्शन Hyper-Connections का पालन करते हैं। ट्रेनिंग के संदर्भ में पहली बार प्रकाशित विवरण में शामिल हैं: ऑप्टिमाइज़र Muon (एक मैट्रिक्स-लेवल ऑप्टिमाइज़र जो Newton-Schulz ऑर्थोगोनलाइज़ेशन को मोमेंटम अपडेट पर लागू करता है), प्री-ट्रेनिंग कॉन्टेक्स्ट लंबाई 32K, RL स्टेज में GRPO का उपयोग करते हुए KL-डाइवर्जेंस कॉरेक्शन जोड़ा गया। अंतिम कॉन्टेक्स्ट लंबाई 1M तक बढ़ाई गई। मॉडल केवल पाठ पर आधारित है। Zhang DeepSeek में काम नहीं करते हैं, DeepSeek ने इन सूचनाओं पर कोई प्रतिक्रिया नहीं दी है।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।