মেটাএরা ফ্ল্যাশকেডিএ ওপেন সোর্স করেছে, কিমি লিনিয়ার ইনফারেন্স স্পিডকে 1.7-2.2x বাড়িয়েছে

ME সংবাদ, ২২ এপ্রিল (UTC+8), অ্যান্ডার চেক বেটিং-এর মনিটরিং অনুযায়ী, মুন অফ দ্য ডার্ক গিটহাবে FlashKDA ওপেন-সোর্স করেছে, যা নভেডিয়া Hopper সিরিজ জিপিইউ (H100, H20 ইত্যাদি) এর জন্য মডেল ইনফারেন্স ত্বরান্বিত করার জন্য ডিজাইন করা একটি টুলকিট, MIT লাইসেন্সে। এটি KDA-এর জন্য ডিজাইন করা হয়েছে, যা মুন অফ দ্য ডার্ক ২০২৩ সালে Kimi Linear পেপারে প্রস্তাব করেছিল। বড় মডেলগুলি দীর্ঘ টেক্সট পড়ার সময়, পুরনো অ্যাটেনশন মেকানিজমের গণনা খরচ দৈর্ঘ্যের বর্গের সাথে বৃদ্ধি পায়, কিন্তু লিনিয়ার অ্যাটেনশন এই খরচকে রৈখিকভাবে বৃদ্ধির সীমায় সীমাবদ্ধ করে। KDA হলো এই পথের একটি উন্নতি। Kimi Linear মডেলের স্ট্রাকচারটি 3টি KDA লেয়ার + 1টি পুরনো অ্যাটেনশন লেয়ারকে পরপর ব্যবহার করে। KDA-এর আগেই Triton ভাষায় একটি ভার্সন flash-linear-attention (সংক্ষেপে fla) নামক ওপেন-সোর্স লাইব্রেরিতে উপলব্ধ। FlashKDA-এ CUTLASS—নভেডিয়ার লো-লেভেল GPU লাইব্রেরি—ব্যবহার করেই punarlikhito, Hopper GPU-এর পারফরম্যান্সকেই 100%ভাবেইউজকরা।অফিসিয়াল H20-এরউপরটেস্টকরেদেখিয়েছে,একইফরওয়ার্ডকমপিউটেশন-এFlashKDA, Tritonভার্সনকে1.7থেকে2.2গুণদ্রুততর।বিশেষকরে,অসমদৈর্ঘ্যেরইনপুটগুলিকেব্যাচকরেপ্রসেসকরারসময়এইস্পিডআপটিঅত্যন্তপ্রকট।তবেঅফিসিয়ালশুধুমাত্রতাদেরসম্পূর্ণTritonভার্সন-এরসঙ্গেতুলনাকরেছে,অন্যকোনওলিনিয়ারঅ্যাটেনশনসলিউশন-এরসঙ্গেতুলনা-করেনি।এইবারশুধুমাত্রফরওয়ার্ডকমপিউটেশনওপেন-সোর্সকরাহয়েছে,অর্থাৎমডেল‘চালানো’(ইনফারেন্স)হবে,কিন্তু‘ট্রেইন’করা(শিক্ষণ)হবেনা—ট্রেইনিংয়েরজন্যএখনওপুরনোTritonভার্সনব্যবহারকরতেহবে।ব্যবহার-প্রয়োজন: Hopperএবংতারপরসবগুলি(SM90আর্কিটেকচার), CUDA 12.9+, PyTorch 2.4+।FlashKDAকেআপসট্রিমfla-এএকটিনয়ব্যাকএন্ডহিসাবেমার্জকরাহয়েছে(PR#852),অতএবপুরনোব্যবহারকারীদেরশুধুমাত্রএকটিলাইনকনফিগারশনপরিবর্তনকরতেহবে।(উৎস: BlockBeats)