MiniMax ने MSA स्पार्स अटेंशन विधि और MiniMax-M3 मॉडल लॉन्च किया
KuCoinFlashसाझा करें
ऑन-चेन समाचार से पता चलता है कि MiniMax ने MSA (MiniMax Sparse Attention) का अनावरण किया है, जो Grouped Query Attention पर आधारित एक स्पार्स ध्यान विधि है। यह विधि ध्यान को एक सूचकांक शाखा और मुख्य शाखा में विभाजित करती है, जहाँ सूचकांक शाखा प्रति GQA समूह 16 टोकन ब्लॉक्स का चयन करती है और मुख्य शाखा उन ब्लॉक्स पर सटीक softmax ध्यान करती है। MSA को 109B पैरामीटर MoE मॉडल पर प्रशिक्षित किया गया था, और MiniMax ने NVIDIA SM100 GPU के लिए `fmha_sm100` निष्पादन कर्नेल MIT लाइसेंस के तहत ओपन-सोर्स कर दिया है। कंपनी ने उत्पादन मॉडल MiniMax-M3 भी लॉन्च किया है, जो कई परीक्षणों में पूर्ण-ध्यान आधारित मॉडल्स के समान प्रदर्शन करता है। मॉडल की दक्षता और प्रदर्शन में इन उन्नतियों से नए टोकन सूचीकरण को लाभ हो सकता है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।