أخبار ME، في 22 أبريل (UTC+8)، وفقًا لمراقبة Beating، أصدر Yue Zhi An Mian مفتوح المصدر FlashKDA، وهو أداة مخصصة لتسريع استنتاج النماذج على بطاقات GPU من سلسلة NVIDIA Hopper (مثل H100 و H20)، بموجب ترخيص MIT. وهي مصممة لخدمة KDA، وهي آلية انتباه جديدة قدمتها Yue Zhi An Mian في ورقة Kimi Linear. عند معالجة النصوص الطويلة، تزداد كمية الحسابات في آلية الانتباه التقليدية بنسبة مربعة مع طول المدخلات، بينما تقلل آلية الانتباه الخطي هذه التكلفة إلى نمو خطي، وKDA هي نسخة محسّنة ضمن هذا المسار. يتكون هيكل نموذج Kimi Linear من استخدام ثلاث طبقات KDA وطبقة واحدة من آلية الانتباه التقليدية بالتناوب. كان هناك بالفعل إصدار من KDA مكتوبًا بلغة Triton، مُتاح في مكتبة مفتوحة المصدر flash-linear-attention (المختصرة fla). أعاد FlashKDA كتابة الكود باستخدام مكتبة GPU الأساسية من NVIDIA CUTLASS، بهدف استغلال أداء بطاقات Hopper بشكل كامل. أظهرت الاختبارات الرسمية على H20 أن FlashKDA أسرع بـ 1.7 إلى 2.2 مرة من الإصدار Triton في نفس عملية التقدم الأمامي، مع تحسن ملحوظ في السيناريوهات التي تتضمن أطوال إدخال غير متساوية أو دفعات مدمجة. ومع ذلك، قارن الفريق الرسمي فقط مع إصدار Triton الخاص بهم، ولم يقارن مع حلول أخرى للانتباه الخطي. تم فتح مصدر عملية التقدم الأمامي فقط، مما يعني أنه يمكن فقط "تشغيل النموذج" (الاستنتاج)، ولا يزال التدريب يتطلب الإصدار الأصلي من Triton. المتطلبات: يجب أن تكون البطاقة من فئة Hopper أو أحدث (بدءًا من بنية SM90)، وCUDA 12.9 أو أحدث، وPyTorch 2.4 أو أحدث. تم دمج FlashKDA كخلفية جديدة في التحديث الرئيسي لـ fla (PR #852)، لذا يمكن للمستخدمين الحاليين التحويل بتعديل إعداد واحد فقط. (المصدر: BlockBeats)
MetaEra تُصدر FlashKDA مفتوح المصدر، وتعزز سرعة الاستدلال الخطي لـ Kimi بنسبة 1.7-2.2x
KuCoinFlashمشاركة






أعلنت MetaEra في 22 أبريل (UTC+8) عن فتح مصدر FlashKDA، أداة مُحسّنة لوحدات معالجة الرسومات NVIDIA Hopper بموجب ترخيص MIT. صُممت هذه الأداة لزيادة سرعة استنتاج Kimi Linear بنسبة 1.7-2.2x، وتستفيد من CUTLASS لتحسين الأداء على وحدات H20. وهي تدعم أطوال مدخلات متغيرة ومعالجة دفعية، لكنها حاليًا تتيح الاستنتاج فقط. يتطلب المستخدمون وحدات معالجة رسومات Hopper وCUDA 12.9+ وPyTorch 2.4+. أصبحت الأداة الآن جزءًا من مستودع flash-linear-attention، وتساهم في نمو الأخبار على السلسلة والنظام البيئي.
المصدر:عرض النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات.
يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.