Xiaomi-এর MiMo-V2.5 মডেল 10-স্তরের সমতুল্য মনোযোগ গণনার মাধ্যমে খরচ কমায়

ME সংবাদ অনুযায়ী, 27 মে (UTC+8), অ্যানালিসিস বিটিং-এর মনিটরিং অনুযায়ী, নিজস্ব বড় মডেল MiMo-V2.5 সিরিজে API-এর স্থায়ী মূল্যহ্রাস চালুর পর, শাওমির বড় মডেল টিমের প্রধান লুও ফুলি X-এ অ্যালগরিদম খরচ কমানোর কৌশল প্রকাশ করেন। লুও ফুলি বলেন, DeepSeek-এর API মূল্যের সাথে সমন্বয়ের পরও, শাওমির হাই-লোড ইনফারেন্স ইঞ্জিনটি লাভ-ক্ষতির সমতা বজায় রাখতে সক্ষম। খরচ কমানোর মূল কারণগুলি হল মিশ্র মনোযোগ আর্কিটেকচার এবং স্তরবদ্ধ KV ক্যাশে অপটিমাইজেশন। ক্যাশে হিট (Cache Hit) খরচ 99% কমানোর ডিজাইন লক্ষ্যের জন্য, শাওমির ইনফারেন্স ফ্রেমওয়ার্কটি SWA (স্লাইডিং উইন্ডো অ্যাটেনশন) -এর জন্য স্তরবদ্ধ KV ক্যাশে অপটিমাইজেশন বাস্তবায়িত করেছে। উৎপাদন পরীক্ষা দেখিয়েছে, স্তরবদ্ধ অপটিমাইজেশনটি 5 গুণ ক্যাশে token-এর ধারণক্ষমতা বৃদ্ধি করেছে, 80% ক্যাশে খরচ কমিয়েছে। গ্লোবাল অ্যাটেনশন মডিউলগুলির মধ্যে ক্যাশে রিড (Cache Read Overlap) প্রযুক্তির সংমিশ্রণে, সিস্টেমটি ক্যাশে-হিটের প্রকৃতখরচকেওআরওকমিয়েছে। মডেলটি 1:7-এরস্তর-প্রতি-স্পারসিটি (layer-wise sparsity ratio) -এরঅভিনবতা,অর্থাৎগ্লোবালঅ্যাটেনশন(GA)এবংস্লাইডিংউইন্ডোঅ্যাটেনশন(SWA)-এরস্তরঅনুপাত1:7-এরজন্য,মৌলিকইনপুটএবংআউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক্সটপ্রিফিল (Prefill)পর্যায়ে,60স্তরSWAকেবলস্থানীয়স্লাইডিংউইন্ডোগণনাকরে,যা70স্তরবিশিষ্টMiMo-V2.5-Proমডেলটিরসমগ্রঅ্যাটেনশনগণনা,একটিমাত্র10স্তরবিশিষ্টপ্রচলিতগ্লোবালGQAমডেলেরসমতুল্যহয়েছে।অতি-নিম্নগণনা-লোডযা,মূলইনফারেন্সখরচকমিয়েছে,যা,মূলতদামকমানোরআগে,শাওমিরজন্য2থেকে3গুণলাভসহগহয়েছিল।অতএব,দামকমানোহলঅপটিমাইজেশন-ভিত্তিকখরচকমানোরপ্রতিফলন,অথবাহানি-ভিত্তিকপ্রতিদ্বন্দ্বিতা। লুওফুলিbলেন,খরচ-কমখরচ-কমইনফারেন্সসেবা,শেষপয়েন্টস্মার্টনিসক্‍সকেউৎসাহিতকরবে।বড়মডেলপ্রতিষ্ঠানগুলি,অবশ‍্যইঅজ‍্জ‍য়াদদামযুদ্ধথেকেদূরেথাকবে,এবংঅলগরিদমএবংইনফারেন্সসিসটেমএরঅধ:পদবদধ:পদভিত্‍তি‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‌‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক্সটপ্রিফিল (Prefill)পর্যায়ে,60স্তরSWAকেবলস্থানীয়স্লাইডিংউইন্ডোগণনাকরে,যা70স্তরবিশিষ্টMiMo-V2.5-Proমডেলটিরসমগ্রঅ্যাটেনশনগণনা,একটিমাত্র10স্তরবিশিষ্টপ্রচলিতগ্লোবালGQAমডেলেরসমতুল্যহয়েছে।অতি-নিম্নগণনা-লোডযা,মূলইনফারেন্সখরচকমিয়েছে,যা,মূলতদামকমানোরআগে,শাওমিরজন্য2থেকে3গুণলাভসহগহয়েছিল।অতএব,দামকমানোহলঅপটিমাইজেশন-ভিত্তিকখরচকমানোরপ্রতিফলন,অথবাহানি-ভিত্—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক्सটপ्रिफिल (Prefill)पर्याये,60स्तरSWAकेवलस्थानीयस्लाइडिंगउइन्डोगणनाकरे,याह70स्तरविशिष्टMiMo-V2.5-Proमॉडलटिरसमग्रअ्याटेनशनगणना,एकटिमात्र10स्तरविशिष्टप्रचलितग्लोबलGQAमॉडलेसमतुल्यहये।अति-निम्नगणना-लोडया,मूलइनफेरेन्सखरचकमिएछे,या,मूलतदामकमानोरआगे,शाओमिजन्य2थेके3गुणलाभसहगहये।अतएव,दामकमानोहलअप्टिमाइजेशन-भित्तिकखरचकमानोरप्रतिफलन,अथवाहानि-भित्—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক्सটপ्रिफिल (Prefill)पर्याये,60स्तरSWAकेवलस्थानीयस्लाइडिंगउइन्डोगणनाकरे,याह70स्तरविशिष्टMiMo-V2.5-Proमॉडलटिरसमग्रअ्याटेनशनगणना,एकटिमात्र10स्तरविशिष्टप्रचलितग्लोबलGQAमॉडलेसमतुल्यहये।अति-निम्नगणना-लोडया,मूलइनफेरेन्सखरचकमिएछे,या,मूलतदामकमानोरआगे,शाओमिजन्य2थेके3गुणलाभसहगहये।अतएव,दामकमानोहलअप्टिमाइजेशन-भित्तिकखरचकमानोरप्रतिफलन,अथवाहानि-भित्—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক्सটপ्रिफिल (Prefill)पर्याये,60स्तरSWAकेवलस्थानीयस्लाइडिंगउइन्डोगणनाकरे,याह70स्तरविशिष्टMiMo-V2.5-Proमॉडलटिरसमग्रअ्याटेनशनगणना,एकटिमात्र10स्तरविशिष्टप्रचलितग्लोबलGQAमॉडलेसमतुल्यहये।अति-निम्नगणना-लोडया,मूलइनफेरेन्सखरचकमिएछे,या,मूलतदामकमानोरआगे,शाओमिजन्य2थेके3गुणलाभसहगहये।अतएव,दामकमानोहलअप्टिमाइजेशन-भित्तिकखरचकमानोरप्रतिफलन,अथवाहानि-भित्—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক्सটপ्रिफिल (Prefill)पर्याये,60स्तरSWAकेवलस्थानीयस्लाइडिंगउइन्डोगणनाकरे,याह70स्तरविशिष्टMiMo-V2.5-Proमॉडलटिरसमग्रअ्याटेनशनगणना,एकटिमात्र10स्तरविशिष्टप्रचलितग्लोबलGQAमॉडलेसमतुल्यहये।अति-निम्नगणना-लोडया,मूलइनफेरेन्सखरचकमिएछे,या,मूलतदामकमानोरआगे,शाओमिजन्य2थेके3गुणलाभसहगहये।अतएव,दामकमानोहलअप्टिमाइजेशन-भित्तिकखरचकमानोरप्रतिफलन,अथवाहानि-भित्—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর்஘টেক்ஸটপ্rফiল (Prefill)প্rযাe,60স্tరSWAকeবলস্tহাnीeস্lাiডiंgউiंডoগণanaaaker,e,ya70স্tరvishishṭMiMo-V2.5-Proমoডalটiরসamagrঅyāṭeṉaśaŋaṇana,aekṭimātra10স্tరvishishṭprachalitগlōbalaGQAមoডaleসamatulyaheye।aṭi-nimngaṇana-loḍayā,mūla inphērēnsakharachakamiyēchē,yā,mūlata dāmakamānōraġē,śāōmi janya 2thēkē 3guṇalābhasahagahayē।aṭaēva,dāmakamānōhalapṭimājēśana-bhitikakharachamānōrapratiphalaṇ,aṭhavāhāni-bhit—আউটপুটখরচ60%থেকে80%কমিয়েছে।দীর্ঘটেক্�� (উৎস: BlockBeats)