DeepSeek V4 ओपन-सोर्स मॉडल 1.6T पैरामीटर और MIT लाइसेंस के साथ लॉन्च हुआ

ME समाचार के अनुसार, 24 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, DeepSeek ने ओपन सोर्स V4 सीरीज का प्रीव्यू संस्करण, MIT लाइसेंस के तहत, Hugging Face और ModelScope पर वजन जारी किए हैं। इस सीरीज में दो MoE मॉडल शामिल हैं: V4-Pro का कुल पैरामीटर 1.6T है और प्रति टोकन 49B (490 अरब) सक्रिय होता है; V4-Flash का कुल पैरामीटर 284B (2840 अरब) है और 13B (130 अरब) सक्रिय होता है। दोनों 1M टोकन कंटेक्स्ट का समर्थन करते हैं। आर्किटेक्चर में तीन अपग्रेड: मिक्स्ड अटेंशन मैकेनिज्म (कम्प्रेस्ड स्पार्स अटेंशन CSA + हाईली कम्प्रेस्ड अटेंशन HCA) लंबे कंटेक्स्ट की लागत को काफी कम करता है, 1M कंटेक्स्ट पर V4-Pro का प्रति टोकन इनफरेंस FLOPs केवल V3.2 का 27% है, KV कैश (इनफरेंस के दौरान पिछली जानकारी को स्टोर करने के लिए GPU मेमोरी में उपयोग) केवल V3.2 का 10% है; मैनिफोल्ड-कंस्ट्रेंड सुपरकनेक्शन mHC पारंपरिक रेजिड्यूअल कनेक्शन को बदलता है, जिससे परतों के बीच सिग्नल प्रसार की स्थिरता में सुधार होता है; प्रशिक्षण के लिए Muon ऑप्टिमाइज़र का उपयोग किया जाता है जिससे अभिसरण तेज़ होता है। प्री-ट्रेनिंग डेटा 32T टोकन से अधिक है। पोस्ट-ट्रेनिंग दो चरणों में होती है: पहले SFT और GRPO रीइनफोर्समेंट लर्निंग का उपयोग करके प्रत्येक क्षेत्र के विशेषज्ञों को प्रशिक्षित किया जाता है, फिर ऑनलाइन डिस्टिलेशन के माध्यम से एक मॉडल में समेकित किया जाता है। V4-Pro-Max (उच्चतम इनफरेंस पावर मोड) खुद को वर्तमान में सबसे मजबूत ओपन सोर्स मॉडल कहता है, जिसका कोडिंग बेंचमार्क शीर्ष स्तर पर है, और इनफरेंस और एजेंट कार्यों में बंद स्रोत अग्रणी मॉडलों के साथ अंतर काफी कम हो गया है। V4-Flash-Max, पर्याप्त सोचने के बजट के साथ, इनफरेंस प्रदर्शन Pro के करीब है, लेकिन केवल ज्ञान-आधारित और जटिल एजेंट कार्यों में पैरामीटर साइज़ के कारण सीमित है। वजन FP4+FP8 मिक्स्ड प्रिसिज़न में संग्रहीत हैं। (स्रोत: BlockBeats)