1.6 ट्रिलियन पैरामीटर और MIT लाइसेंस के साथ DeepSeek V4 सीरीज जारी

iconChainthink
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
ऑन-चेन समाचार 24 अप्रैल को टूटा, जब डीपसीक ने MIT लाइसेंस के तहत V4 श्रृंखला जारी की। ये मॉडल, अब Hugging Face और ModelScope पर उपलब्ध हैं, जिनमें V4-Pro (1.6 ट्रिलियन पैरामीटर) और V4-Flash (284 अरब पैरामीटर) शामिल हैं, दोनों 1 मिलियन टोकन संदर्भ का समर्थन करते हैं। V4 श्रृंखला में तीन आर्किटेक्चरल अपग्रेड शामिल हैं, जिनमें एक हाइब्रिड ध्यान तंत्र शामिल है जो लंबे संदर्भ की लागत को कम करता है। V4-Pro, V3.2 के FLOPs का 27% और इसके KV कैश मेमोरी का 10% उपयोग करता है। 32T टोकन पर प्रशिक्षित, ये मॉडल SFT, GRPO और ऑनलाइन डिस्टिलेशन का उपयोग करते हैं। इस सुधारित कुशलता से नए टोकन सूचीकरण को लाभ हो सकता है।

ChainThink संदेश, 24 अप्रैल, आधिकारिक सूचनाओं के अनुसार, DeepSeek ने MIT लाइसेंस के तहत V4 सीरीज का प्रीव्यू लॉन्च किया है, और मॉडल वेट्स Hugging Face और ModelScope पर उपलब्ध हैं।


इस श्रृंखला में दो MoE मॉडल शामिल हैं, जिनमें V4-Pro कुल 1.6 ट्रिलियन पैरामीटर हैं, प्रति टोकन 490 बिलियन पैरामीटर सक्रिय होते हैं;


V4-Flash का कुल पैरामीटर 2840 अरब है, प्रति टोकन 130 अरब पैरामीटर सक्रिय होते हैं, और दोनों 1M टोकन कंटेक्स्ट का समर्थन करते हैं।


इस आर्किटेक्चर सीरीज में तीन अपग्रेड हैं: मिक्स्ड अटेंशन मैकेनिज्म (कंप्रेस्ड स्पार्स अटेंशन CSA+ हाइपर कंप्रेस्ड अटेंशन HCA) लंबे कॉन्टेक्स्ट के ओवरहेड को काफी कम करता है, 1M कॉन्टेक्स्ट सीनेरियो में, V4-Pro का एक टोकन इनफरेंस FLOPs केवल V3.2 का 27% है, KV कैश मेमोरी उपयोग केवल V3.2 का 10% है;


मैनिफोल्ड कंस्ट्रेंट सुपर-कनेक्टेड mHC पारंपरिक रेजिड्यूअल कनेक्शन को प्रतिस्थापित करता है, जिससे बहु-परत सिग्नल प्रसार स्थिरता बढ़ती है; प्रशिक्षण के लिए Muon ऑप्टिमाइज़र का उपयोग किया जाता है जिससे अभिसरण तेज़ होता है। इस मॉडल के लिए प्री-ट्रेनिंग डेटा 32T टोकन से अधिक है।


प्रशिक्षण के बाद का चरण दो चरणों में विभाजित है: पहले, SFT और GRPO रीइनफोर्समेंट लर्निंग के माध्यम से प्रत्येक क्षेत्र के विशेषज्ञ मॉडल को प्रशिक्षित किया जाता है, और फिर ऑनलाइन डिस्टिलेशन के माध्यम से उन्हें एक साथ एकीकृत करके अंतिम मॉडल बनाया जाता है।


इसमें V4-Pro-Max खुद को वर्तमान में सबसे शक्तिशाली ओपन-सोर्स मॉडल बताता है, जिसका कोडिंग बेंचमार्क शीर्ष स्तर का है, और इन्फरेंस और एजेंट कार्यों में बंद स्रोत अग्रणी मॉडलों के साथ अंतर काफी कम हो गया है;


V4-Flash-Max जब पर्याप्त विचार बजट प्राप्त करता है, तो Pro के समान निष्कर्षण प्रदर्शन करता है, लेकिन शुद्ध ज्ञान और जटिल एजेंट कार्यों में पैरामीटर आकार से सीमित है। मॉडल वजन FP4+FP8 मिश्रित सटीकता के साथ संग्रहीत किए जाते हैं।

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।