DeepSeek V4 तकनीकी विनिर्देश उजागर: 1.6T पैरामीटर, 384 विशेषज्ञ जो 6 सक्रिय करते हैं

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
22 अप्रैल (UTC+8) को, प्रिंसटन के डॉक्टरेट छात्र यिफान ज़हांग ने X पर DeepSeek V4 के तकनीकी सूचकांक साझा किए। इस मॉडल में 1.6 ट्रिलियन पैरामीटर, 384 MoE विशेषज्ञ और प्रत्येक चरण में 6 सक्रिय हैं, और एक 285B पैरामीटर वाला V4-Lite संस्करण है। प्रशिक्षण के लिए Muon ऑप्टिमाइज़र, 32K प्री-ट्रेनिंग संदर्भ लंबाई और 1M अंतिम संदर्भ लंबाई का उपयोग किया गया। DeepSeek ने अभी तक कोई टिप्पणी नहीं की है। बाजार का मनोबल मिश्रित रहा है, जहाँ भय और लालच सूचकांक में मामूली अनिश्चितता दिखाई दे रही है।

ME News के अनुसार, 22 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, प्रिंसटन के डॉक्टरेट के छात्र Yifan Zhang ने X पर DeepSeek V4 के तकनीकी विवरण को अपडेट किया। उन्होंने 19 अप्रैल को "V4 अगले सप्ताह" की घोषणा की और तीन आर्किटेक्चर कंपोनेंट्स के नाम लिस्ट किए, आज रात पूरी पैरामीटर टेबल प्रकाशित की, साथ ही पहली बार एक 285B पैरामीटर वाला हल्का संस्करण V4-Lite के अस्तित्व का खुलासा किया। V4 की कुल पैरामीटर संख्या 1.6T है। ध्यान तंत्र DSA2 है, जो DeepSeek द्वारा V3.2 में उपयोग किए जाने वाले DSA (DeepSeek Sparse Attention) और इस साल की शुरुआत में पेपर में प्रस्तुत NSA (Native Sparse Attention) दोनों स्पार्स अटेंशन स्कीम्स को मिलाता है, head-dim 512, Sparse MQA और SWA (स्लाइडिंग विंडो अटेंशन) के साथ। MoE परत में कुल 384 एक्सपर्ट हैं, जिनमें से प्रत्येक बार 6 सक्रिय होते हैं, Fused MoE Mega-Kernel का उपयोग करते हुए। रेसिडुअल कनेक्शन Hyper-Connections का पालन करते हैं। ट्रेनिंग पर पहली बार प्रकाशित विवरण में शामिल हैं: ऑप्टिमाइज़र Muon (जो Newton-Schulz ऑर्थोगोनलाइज़ेशन को मोमेंटम अपडेट पर लागू करता है), प्री-ट्रेनिंग कॉन्टेक्स्ट लंबाई 32K, RL चरण में GRPO का उपयोग करते हुए KL-डाइवर्जेंस कॉरेक्शन जोड़ा गया। अंतिम कॉन्टेक्स्ट लंबाई 1M तक बढ़ाई गई। मोडल केवल पाठ है। Zhang DeepSeek में काम नहीं करते, DeepSeek ने इन सूचनाओं पर प्रतिक्रिया नहीं दी है। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।