ME समाचार के अनुसार, 22 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, मून ऑफ डार्कनेस ने GitHub पर FlashKDA को ओपन सोर्स किया है, जो एक विशेष उपकरण है जो निविडा Hopper सीरीज जीपीयू (H100, H20 आदि) के लिए मॉडल इन्फरेंस को त्वरित करता है, MIT लाइसेंस के तहत। इसका उद्देश्य KDA है, जो मून ऑफ डार्कनेस ने पिछले वर्ष Kimi Linear पेपर में प्रस्तावित एक नया ध्यान तंत्र है। बड़े मॉडल लंबे पाठ को पढ़ते समय, पारंपरिक ध्यान की गणना लंबाई के वर्ग के साथ बढ़ती है, जबकि रैखिक ध्यान इस लागत को रैखिक वृद्धि में कम करता है, KDA इसी पथ का एक सुधारित संस्करण है। Kimi Linear मॉडल की संरचना 3 परतें KDA और 1 परत पारंपरिक ध्यान को बारी-बारी से उपयोग करती है। KDA के पहले से ही Triton भाषा में लिखा गया संस्करण flash-linear-attention (संक्षिप्त: fla) में उपलब्ध है। FlashKDA को NVIDIA की निचली स्तर की GPU पुस्तकालय CUTLASS का उपयोग करके पुनः लिखा गया है, जो Hopper GPU की क्षमता को पूरी तरह से निकालता है। आधिकारिक रूप से H20 पर प्रयोग करने पर, समान फॉरवर्ड कैलकुलेशन के लिए, FlashKDA Triton संस्करण से 1.7 से 2.2 गुना तेज है, और इनपुट लंबाई में असमानता होने पर, समूहों में प्रसंस्करण के मामले में त्वरण विशेष रूप से स्पष्ट है। हालाँकि, आधिकारिक रूप से केवल apne Triton संस्करण के साथ ही तुलना की गई है, अन्य रैखिक ध्यान समाधानों के साथ नहीं। इस बार केवल फॉरवर्ड कैलकुलेशन ही ओपन सोर्स किया गया है, मतलब कि केवल "मॉडल चलाना" (इन्फरेंस) संभव है, मॉडल प्रशिक्षण (ट्रेनिंग) के लिए अभी भी मूल Triton संस्करण का ही प्रयोग करना होगा। प्रयोग के लिए प्रतिबंध: GPU Hopper और उसके बाद (SM90आधारित) होना चाहिए, CUDA 12.9 से अधिक, PyTorch 2.4 से अधिक। FlashKDA को fla के मुख्य स्रोत में (PR #852)एक नया पश्चभूमि (backend) के रूप में मर्ज किया गया है, पुराने प्रयोक्ता केवल एक पंक्ति कॉन्फ़िगरेशन में परिवर्तन करके स्विच कर सकते हैं। (स्रोत: BlockBeats)
MetaEra ने FlashKDA को ओपन सोर्स किया, जिससे Kimi लीनियर इन्फरेंस स्पीड 1.7-2.2x तक बढ़ गई
KuCoinFlashसाझा करें






मेटाएरा ने 22 अप्रैल (UTC+8) को FlashKDA को MIT लाइसेंस के तहत ओपन-सोर्स किया, जो NVIDIA Hopper GPU के लिए अनुकूलित एक उपकरण है। FlashKDA को Kimi Linear निष्पादन गति को 1.7-2.2x तक बढ़ाने के लिए डिज़ाइन किया गया है और H20 GPU पर बेहतर प्रदर्शन के लिए CUTLASS का उपयोग करता है। यह चर इनपुट लंबाई और बैच्ड प्रोसेसिंग को समर्थन करता है, लेकिन वर्तमान में केवल निष्पादन को सक्षम करता है। उपयोगकर्ताओं को Hopper GPU, CUDA 12.9+ और PyTorch 2.4+ की आवश्यकता है। यह उपकरण अब flash-linear-attention रिपॉजिटरी का हिस्सा है, जो ऑन-चेन समाचार और परितंत्र के विकास में योगदान देता है।
स्रोत:मूल दिखाएं
डिस्क्लेमर: इस पेज पर दी गई जानकारी थर्ड पार्टीज़ से प्राप्त की गई हो सकती है और यह जरूरी नहीं कि KuCoin के विचारों या राय को दर्शाती हो। यह सामग्री केवल सामान्य सूचनात्मक उद्देश्यों के लिए प्रदान की गई है, किसी भी प्रकार के प्रस्तुतीकरण या वारंटी के बिना, न ही इसे वित्तीय या निवेश सलाह के रूप में माना जाएगा। KuCoin किसी भी त्रुटि या चूक के लिए या इस जानकारी के इस्तेमाल से होने वाले किसी भी नतीजे के लिए उत्तरदायी नहीं होगा।
डिजिटल संपत्तियों में निवेश जोखिम भरा हो सकता है। कृपया अपनी वित्तीय परिस्थितियों के आधार पर किसी प्रोडक्ट के जोखिमों और अपनी जोखिम सहनशीलता का सावधानीपूर्वक मूल्यांकन करें। अधिक जानकारी के लिए, कृपया हमारे उपयोग के नियम और जोखिम प्रकटीकरण देखें।