ME समाचार के अनुसार, 24 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, DeepSeek ने ओपन सोर्स V4 सीरीज का प्रीव्यू संस्करण, MIT लाइसेंस के तहत, Hugging Face और ModelScope पर वजन जारी किए हैं। इस सीरीज में दो MoE मॉडल शामिल हैं: V4-Pro का कुल पैरामीटर 1.6T है और प्रति टोकन 49B (490 अरब) सक्रिय होता है; V4-Flash का कुल पैरामीटर 284B (2840 अरब) है और 13B (130 अरब) सक्रिय होता है। दोनों 1M टोकन कंटेक्स्ट का समर्थन करते हैं। आर्किटेक्चर में तीन अपग्रेड: मिक्स्ड अटेंशन मैकेनिज्म (कम्प्रेस्ड स्पार्स अटेंशन CSA + हाईली कम्प्रेस्ड अटेंशन HCA) लंबे कंटेक्स्ट की लागत को काफी कम करता है, 1M कंटेक्स्ट पर V4-Pro का प्रति टोकन इनफरेंस FLOPs केवल V3.2 का 27% है, KV कैश (इनफरेंस के दौरान पिछली जानकारी को स्टोर करने के लिए GPU मेमोरी में उपयोग) केवल V3.2 का 10% है; मैनिफोल्ड-कंस्ट्रेंड सुपरकनेक्शन mHC पारंपरिक रेजिड्यूअल कनेक्शन को बदलता है, जिससे परतों के बीच सिग्नल प्रसार की स्थिरता में सुधार होता है; प्रशिक्षण के लिए Muon ऑप्टिमाइज़र का उपयोग किया जाता है जिससे अभिसरण तेज़ होता है। प्री-ट्रेनिंग डेटा 32T टोकन से अधिक है। पोस्ट-ट्रेनिंग दो चरणों में होती है: पहले SFT और GRPO रीइनफोर्समेंट लर्निंग का उपयोग करके प्रत्येक क्षेत्र के विशेषज्ञों को प्रशिक्षित किया जाता है, फिर ऑनलाइन डिस्टिलेशन के माध्यम से एक मॉडल में समेकित किया जाता है। V4-Pro-Max (उच्चतम इनफरेंस पावर मोड) खुद को वर्तमान में सबसे मजबूत ओपन सोर्स मॉडल कहता है, जिसका कोडिंग बेंचमार्क शीर्ष स्तर पर है, और इनफरेंस और एजेंट कार्यों में बंद स्रोत अग्रणी मॉडलों के साथ अंतर काफी कम हो गया है। V4-Flash-Max, पर्याप्त सोचने के बजट के साथ, इनफरेंस प्रदर्शन Pro के करीब है, लेकिन केवल ज्ञान-आधारित और जटिल एजेंट कार्यों में पैरामीटर साइज़ के कारण सीमित है। वजन FP4+FP8 मिक्स्ड प्रिसिज़न में संग्रहीत हैं। (स्रोत: BlockBeats)
DeepSeek V4 ओपन-सोर्स मॉडल 1.6T पैरामीटर और MIT लाइसेंस के साथ लॉन्च हुआ
KuCoinFlashसाझा करें






ऑन-चेन समाचार 24 अप्रैल (UTC+8) को टूटा, जब डीपसीक ने अपने ओपन-सोर्स V4 श्रृंखला मॉडल्स का प्रीव्यू MIT लाइसेंस के तहत लॉन्च किया। V4-Pro और V4-Flash MoE मॉडल्स क्रमशः 1.6 ट्रिलियन और 284 बिलियन पैरामीटर्स के साथ 1 मिलियन टोकन कॉन्टेक्स्ट सपोर्ट करते हैं। V4-Pro, V3.2 की तुलना में इन्फरेंस FLOPs को 73% और KV कैश मेमोरी को 90% तक कम करता है। वेट्स Hugging Face और ModelScope पर उपलब्ध हैं। नए टोकन लिस्टिंग्स बेहतर कुशलता और खुला पहुंच से लाभान्वित हो सकती हैं।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।