میٹا ایرا نے فلیش کیڈا کو اوپن سورس کر دیا، کیمی لینیئر انفرنس سپیڈ کو 1.7-2.2 گنا بڑھا دیا

ME خبروں کے مطابق، 22 اپریل (UTC+8) کو، Beating کی نگرانی کے مطابق، مہینے کا اندھیرا نے گٹھبب پر FlashKDA کو اوپن سورس کیا ہے، جو اینوڈیا Hopper سیریز گرافکس کارڈز (H100، H20 وغیرہ) کے لیے ماڈل انفرنس کو تیز کرنے کا ایک خاص ٹول ہے، MIT لائسنس کے تحت۔ اس کا مقصد KDA ہے، جو مہینے کا اندھیرا نے گزشتہ سال Kimi Linear پیپر میں ایک نئی توجہ کے طریقہ کار کے طور پر پیش کیا تھا۔ بڑے ماڈلز جب لمبے متن کو پڑھتے ہیں، تو قدیم توجہ کا حساب ڈگری دو میں بڑھ جاتا ہے، لیکن لینئر توجہ اس لاگت کو لینئر بڑھتے ہوئے کم کردیتی ہے، اور KDA اس راستے کا ایک بہتر شکل ہے۔ Kimi Linear ماڈل کی ساخت 3 لیئرز KDA اور 1 لیئر قدیم توجہ کو متناوب طور پر استعمال کرتی ہے۔ KDA کا پہلے سے ہی Triton زبان میں ایک ورژن موجود تھا، جو اوپن سورس رپوزٹری flash-linear-attention (مختصر طور پر fla) میں موجود تھا۔ FlashKDA نے اینوڈیا کے بنیادی GPU لائبریری CUTLASS کا استعمال کرتے ہوئے اسے دوبارہ لکھا ہے، تاکہ Hopper گرافکس کارڈز کی صلاحیت کو بھرپور استعمال کیا جا سکے۔ باقاعدگی سے H20 پر ٹیسٹ کرنے پر، ایک ہی فارورڈ کمپوٹیشن میں FlashKDA Triton ورژن سے 1.7 سے 2.2 گنا تیز نکلا، خاص طور پر ان پٹ لمبائیاں مختلف ہوں اور بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑے ہوئے بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئे بچھڑे ہوئۓ۔ صرف باقاعدگی نے اپنی Triton ورژن سے تقابل کیا، دیگر لینئر توجہ حل کرن والی منصوبوبندی سات نہیں۔ اس مرحله پر صرف فارورڈ کمپٹیشن اوپن سورس کیا گیا، جس کا مطلب صرف "ماڈل رن" (انفرنس) کرنا ممکن ہوتا ہے، ماڈل تربیت (ٹریننگ) اب تک قدیم Triton ورژن استعمال کرنی پڑتی ہ۔ استعمال کا شرط: GPU Hopper اور اس سات آگے (SM90 آرکٹیکٹر سات شروع) ضروری، CUDA 12.9 سات زائد، PyTorch 2.4 سات زائد۔ FlashKDA نواسٹ باکنڈ کی حثت س fla اپسٹریم میں شامل کردیا جاسکتا (PR #852)، قدیم صارفین صرف ایک لائن ترتیب تبدیل کرکر اس میں منتقل ہوسکتں۔ (ذرائع: BlockBeats)