MetaEra ने FlashKDA को ओपन सोर्स किया, जिससे Kimi लीनियर इन्फरेंस स्पीड 1.7-2.2x तक बढ़ गई

ME समाचार के अनुसार, 22 अप्रैल (UTC+8) को, Beating द्वारा निगरानी के अनुसार, मून ऑफ डार्कनेस ने GitHub पर FlashKDA को ओपन सोर्स किया है, जो एक विशेष उपकरण है जो निविडा Hopper सीरीज जीपीयू (H100, H20 आदि) के लिए मॉडल इन्फरेंस को त्वरित करता है, MIT लाइसेंस के तहत। इसका उद्देश्य KDA है, जो मून ऑफ डार्कनेस ने पिछले वर्ष Kimi Linear पेपर में प्रस्तावित एक नया ध्यान तंत्र है। बड़े मॉडल लंबे पाठ को पढ़ते समय, पारंपरिक ध्यान की गणना लंबाई के वर्ग के साथ बढ़ती है, जबकि रैखिक ध्यान इस लागत को रैखिक वृद्धि में कम करता है, KDA इसी पथ का एक सुधारित संस्करण है। Kimi Linear मॉडल की संरचना 3 परतें KDA और 1 परत पारंपरिक ध्यान को बारी-बारी से उपयोग करती है। KDA के पहले से ही Triton भाषा में लिखा गया संस्करण flash-linear-attention (संक्षिप्त: fla) में उपलब्ध है। FlashKDA को NVIDIA की निचली स्तर की GPU पुस्तकालय CUTLASS का उपयोग करके पुनः लिखा गया है, जो Hopper GPU की क्षमता को पूरी तरह से निकालता है। आधिकारिक रूप से H20 पर प्रयोग करने पर, समान फॉरवर्ड कैलकुलेशन के लिए, FlashKDA Triton संस्करण से 1.7 से 2.2 गुना तेज है, और इनपुट लंबाई में असमानता होने पर, समूहों में प्रसंस्करण के मामले में त्वरण विशेष रूप से स्पष्ट है। हालाँकि, आधिकारिक रूप से केवल apne Triton संस्करण के साथ ही तुलना की गई है, अन्य रैखिक ध्यान समाधानों के साथ नहीं। इस बार केवल फॉरवर्ड कैलकुलेशन ही ओपन सोर्स किया गया है, मतलब कि केवल "मॉडल चलाना" (इन्फरेंस) संभव है, मॉडल प्रशिक्षण (ट्रेनिंग) के लिए अभी भी मूल Triton संस्करण का ही प्रयोग करना होगा। प्रयोग के लिए प्रतिबंध: GPU Hopper और उसके बाद (SM90आधारित) होना चाहिए, CUDA 12.9 से अधिक, PyTorch 2.4 से अधिक। FlashKDA को fla के मुख्य स्रोत में (PR #852)एक नया पश्चभूमि (backend) के रूप में मर्ज किया गया है, पुराने प्रयोक्ता केवल एक पंक्ति कॉन्फ़िगरेशन में परिवर्तन करके स्विच कर सकते हैं। (स्रोत: BlockBeats)