1.6 ट्रिलियन पैरामीटर और MIT लाइसेंस के साथ DeepSeek V4 सीरीज जारी

ChainThink संदेश, 24 अप्रैल, आधिकारिक सूचनाओं के अनुसार, DeepSeek ने MIT लाइसेंस के तहत V4 सीरीज का प्रीव्यू लॉन्च किया है, और मॉडल वेट्स Hugging Face और ModelScope पर उपलब्ध हैं।

इस श्रृंखला में दो MoE मॉडल शामिल हैं, जिनमें V4-Pro कुल 1.6 ट्रिलियन पैरामीटर हैं, प्रति टोकन 490 बिलियन पैरामीटर सक्रिय होते हैं;

V4-Flash का कुल पैरामीटर 2840 अरब है, प्रति टोकन 130 अरब पैरामीटर सक्रिय होते हैं, और दोनों 1M टोकन कंटेक्स्ट का समर्थन करते हैं।

इस आर्किटेक्चर सीरीज में तीन अपग्रेड हैं: मिक्स्ड अटेंशन मैकेनिज्म (कंप्रेस्ड स्पार्स अटेंशन CSA+ हाइपर कंप्रेस्ड अटेंशन HCA) लंबे कॉन्टेक्स्ट के ओवरहेड को काफी कम करता है, 1M कॉन्टेक्स्ट सीनेरियो में, V4-Pro का एक टोकन इनफरेंस FLOPs केवल V3.2 का 27% है, KV कैश मेमोरी उपयोग केवल V3.2 का 10% है;

मैनिफोल्ड कंस्ट्रेंट सुपर-कनेक्टेड mHC पारंपरिक रेजिड्यूअल कनेक्शन को प्रतिस्थापित करता है, जिससे बहु-परत सिग्नल प्रसार स्थिरता बढ़ती है; प्रशिक्षण के लिए Muon ऑप्टिमाइज़र का उपयोग किया जाता है जिससे अभिसरण तेज़ होता है। इस मॉडल के लिए प्री-ट्रेनिंग डेटा 32T टोकन से अधिक है।

प्रशिक्षण के बाद का चरण दो चरणों में विभाजित है: पहले, SFT और GRPO रीइनफोर्समेंट लर्निंग के माध्यम से प्रत्येक क्षेत्र के विशेषज्ञ मॉडल को प्रशिक्षित किया जाता है, और फिर ऑनलाइन डिस्टिलेशन के माध्यम से उन्हें एक साथ एकीकृत करके अंतिम मॉडल बनाया जाता है।

इसमें V4-Pro-Max खुद को वर्तमान में सबसे शक्तिशाली ओपन-सोर्स मॉडल बताता है, जिसका कोडिंग बेंचमार्क शीर्ष स्तर का है, और इन्फरेंस और एजेंट कार्यों में बंद स्रोत अग्रणी मॉडलों के साथ अंतर काफी कम हो गया है;

V4-Flash-Max जब पर्याप्त विचार बजट प्राप्त करता है, तो Pro के समान निष्कर्षण प्रदर्शन करता है, लेकिन शुद्ध ज्ञान और जटिल एजेंट कार्यों में पैरामीटर आकार से सीमित है। मॉडल वजन FP4+FP8 मिश्रित सटीकता के साथ संग्रहीत किए जाते हैं।