DeepSeek V4 ओपन-सोर्स मॉडल 1.6T पैरामीटर और MIT लाइसेंस के साथ लॉन्च हुआ

iconKuCoinFlash
साझा करें
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconसारांश

expand icon
ऑन-चेन समाचार 24 अप्रैल (UTC+8) को टूटा, जब डीपसीक ने अपने ओपन-सोर्स V4 श्रृंखला मॉडल्स का प्रीव्यू MIT लाइसेंस के तहत लॉन्च किया। V4-Pro और V4-Flash MoE मॉडल्स क्रमशः 1.6 ट्रिलियन और 284 बिलियन पैरामीटर्स के साथ 1 मिलियन टोकन कॉन्टेक्स्ट सपोर्ट करते हैं। V4-Pro, V3.2 की तुलना में इन्फरेंस FLOPs को 73% और KV कैश मेमोरी को 90% तक कम करता है। वेट्स Hugging Face और ModelScope पर उपलब्ध हैं। नए टोकन लिस्टिंग्स बेहतर कुशलता और खुला पहुंच से लाभान्वित हो सकती हैं।

ME समाचार के अनुसार, 24 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, DeepSeek ने ओपन सोर्स V4 सीरीज का प्रीव्यू संस्करण, MIT लाइसेंस के तहत, Hugging Face और ModelScope पर वजन जारी किए हैं। इस सीरीज में दो MoE मॉडल शामिल हैं: V4-Pro का कुल पैरामीटर 1.6T है और प्रति टोकन 49B (490 अरब) सक्रिय होता है; V4-Flash का कुल पैरामीटर 284B (2840 अरब) है और 13B (130 अरब) सक्रिय होता है। दोनों 1M टोकन कंटेक्स्ट का समर्थन करते हैं। आर्किटेक्चर में तीन अपग्रेड: मिक्स्ड अटेंशन मैकेनिज्म (कम्प्रेस्ड स्पार्स अटेंशन CSA + हाईली कम्प्रेस्ड अटेंशन HCA) लंबे कंटेक्स्ट की लागत को काफी कम करता है, 1M कंटेक्स्ट पर V4-Pro का प्रति टोकन इनफरेंस FLOPs केवल V3.2 का 27% है, KV कैश (इनफरेंस के दौरान पिछली जानकारी को स्टोर करने के लिए GPU मेमोरी में उपयोग) केवल V3.2 का 10% है; मैनिफोल्ड-कंस्ट्रेंड सुपरकनेक्शन mHC पारंपरिक रेजिड्यूअल कनेक्शन को बदलता है, जिससे परतों के बीच सिग्नल प्रसार की स्थिरता में सुधार होता है; प्रशिक्षण के लिए Muon ऑप्टिमाइज़र का उपयोग किया जाता है जिससे अभिसरण तेज़ होता है। प्री-ट्रेनिंग डेटा 32T टोकन से अधिक है। पोस्ट-ट्रेनिंग दो चरणों में होती है: पहले SFT और GRPO रीइनफोर्समेंट लर्निंग का उपयोग करके प्रत्येक क्षेत्र के विशेषज्ञों को प्रशिक्षित किया जाता है, फिर ऑनलाइन डिस्टिलेशन के माध्यम से एक मॉडल में समेकित किया जाता है। V4-Pro-Max (उच्चतम इनफरेंस पावर मोड) खुद को वर्तमान में सबसे मजबूत ओपन सोर्स मॉडल कहता है, जिसका कोडिंग बेंचमार्क शीर्ष स्तर पर है, और इनफरेंस और एजेंट कार्यों में बंद स्रोत अग्रणी मॉडलों के साथ अंतर काफी कम हो गया है। V4-Flash-Max, पर्याप्त सोचने के बजट के साथ, इनफरेंस प्रदर्शन Pro के करीब है, लेकिन केवल ज्ञान-आधारित और जटिल एजेंट कार्यों में पैरामीटर साइज़ के कारण सीमित है। वजन FP4+FP8 मिक्स्ड प्रिसिज़न में संग्रहीत हैं। (स्रोत: BlockBeats)

डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा। डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।