ME সংবাদ, ২২ এপ্রিল (UTC+8), অ্যান্ডার চেক বেটিং-এর মনিটরিং অনুযায়ী, মুন অফ দ্য ডার্ক গিটহাবে FlashKDA ওপেন-সোর্স করেছে, যা নভেডিয়া Hopper সিরিজ জিপিইউ (H100, H20 ইত্যাদি) এর জন্য মডেল ইনফারেন্স ত্বরান্বিত করার জন্য ডিজাইন করা একটি টুলকিট, MIT লাইসেন্সে। এটি KDA-এর জন্য ডিজাইন করা হয়েছে, যা মুন অফ দ্য ডার্ক ২০২৩ সালে Kimi Linear পেপারে প্রস্তাব করেছিল। বড় মডেলগুলি দীর্ঘ টেক্সট পড়ার সময়, পুরনো অ্যাটেনশন মেকানিজমের গণনা খরচ দৈর্ঘ্যের বর্গের সাথে বৃদ্ধি পায়, কিন্তু লিনিয়ার অ্যাটেনশন এই খরচকে রৈখিকভাবে বৃদ্ধির সীমায় সীমাবদ্ধ করে। KDA হলো এই পথের একটি উন্নতি। Kimi Linear মডেলের স্ট্রাকচারটি 3টি KDA লেয়ার + 1টি পুরনো অ্যাটেনশন লেয়ারকে পরপর ব্যবহার করে। KDA-এর আগেই Triton ভাষায় একটি ভার্সন flash-linear-attention (সংক্ষেপে fla) নামক ওপেন-সোর্স লাইব্রেরিতে উপলব্ধ। FlashKDA-এ CUTLASS—নভেডিয়ার লো-লেভেল GPU লাইব্রেরি—ব্যবহার করেই punarlikhito, Hopper GPU-এর পারফরম্যান্সকেই 100%ভাবেইউজকরা।অফিসিয়াল H20-এরউপরটেস্টকরেদেখিয়েছে,একইফরওয়ার্ডকমপিউটেশন-এFlashKDA, Tritonভার্সনকে1.7থেকে2.2গুণদ্রুততর।বিশেষকরে,অসমদৈর্ঘ্যেরইনপুটগুলিকেব্যাচকরেপ্রসেসকরারসময়এইস্পিডআপটিঅত্যন্তপ্রকট।তবেঅফিসিয়ালশুধুমাত্রতাদেরসম্পূর্ণTritonভার্সন-এরসঙ্গেতুলনাকরেছে,অন্যকোনওলিনিয়ারঅ্যাটেনশনসলিউশন-এরসঙ্গেতুলনা-করেনি।এইবারশুধুমাত্রফরওয়ার্ডকমপিউটেশনওপেন-সোর্সকরাহয়েছে,অর্থাৎমডেল‘চালানো’(ইনফারেন্স)হবে,কিন্তু‘ট্রেইন’করা(শিক্ষণ)হবেনা—ট্রেইনিংয়েরজন্যএখনওপুরনোTritonভার্সনব্যবহারকরতেহবে।ব্যবহার-প্রয়োজন: Hopperএবংতারপরসবগুলি(SM90আর্কিটেকচার), CUDA 12.9+, PyTorch 2.4+।FlashKDAকেআপসট্রিমfla-এএকটিনয়ব্যাকএন্ডহিসাবেমার্জকরাহয়েছে(PR#852),অতএবপুরনোব্যবহারকারীদেরশুধুমাত্রএকটিলাইনকনফিগারশনপরিবর্তনকরতেহবে।(উৎস: BlockBeats)
মেটাএরা ফ্ল্যাশকেডিএ ওপেন সোর্স করেছে, কিমি লিনিয়ার ইনফারেন্স স্পিডকে 1.7-2.2x বাড়িয়েছে
KuCoinFlashশেয়ার






এপ্রিল ২২ (UTC+৮)-এ মেটাএরা ঘোষণা করেছে যে FlashKDA-কে MIT লাইসেন্সের অধীনে ওপেন-সোর্স করা হয়েছে, যা NVIDIA Hopper GPU-এর জন্য অপ্টিমাইজড। FlashKDA-কে Kimi Linear ইনফারেন্স গতি ১.৭-২.২x বাড়ানোর জন্য ডিজাইন করা হয়েছে, যা H20 GPU-এর উপর পারফরম্যান্স উন্নত করতে CUTLASS-এর ব্যবহার করে। এটি ভ্যারিয়েবল ইনপুট লম্বাই এবং ব্যাচড প্রসেসিংকে সমর্থন করে, তবে বর্তমানে শুধুমাত্র ইনফারেন্সকেই সক্ষম করে। ব্যবহারকারীদের Hopper GPU, CUDA 12.9+, এবং PyTorch 2.4+ প্রয়োজন। এই টুলটি এখন flash-linear-attention রিপোজিটরির অংশ, যা অন-চেইন খবর এবং বাস্তুতন্ত্রের বৃদ্ধিতে অবদান রাখছে।
উৎস:আসল দেখান
দাবিত্যাগ: এই পৃষ্ঠার তথ্য তৃতীয় পক্ষের কাছ থেকে প্রাপ্ত হতে পারে এবং অগত্যা KuCoin এর মতামত বা মতামত প্রতিফলিত করে না। এই বিষয়বস্তু শুধুমাত্র সাধারণ তথ্যগত উদ্দেশ্যে প্রদান করা হয়, কোন ধরনের প্রতিনিধিত্ব বা ওয়ারেন্টি ছাড়াই, বা এটিকে আর্থিক বা বিনিয়োগ পরামর্শ হিসাবে বোঝানো হবে না। KuCoin কোনো ত্রুটি বা বাদ পড়ার জন্য বা এই তথ্য ব্যবহারের ফলে যে কোনো ফলাফলের জন্য দায়ী থাকবে না।
ডিজিটাল সম্পদে বিনিয়োগ ঝুঁকিপূর্ণ হতে পারে। আপনার নিজের আর্থিক পরিস্থিতির উপর ভিত্তি করে একটি পণ্যের ঝুঁকি এবং আপনার ঝুঁকি সহনশীলতা সাবধানে মূল্যায়ন করুন। আরও তথ্যের জন্য, অনুগ্রহ করে আমাদের ব্যবহারের শর্তাবলী এবং ঝুঁকি প্রকাশ পড়ুন।