Xiaomi MiMo API ইঞ্জিনিয়ারিং বিপ্লবের মাধ্যমে দাম ৯৯% কমিয়ে দিয়েছে

লেখক: শাংশিয়ান

রো ফুলি একটি এক্স পোস্ট করেছেন, যাতে মিই মিমোর মূল্য হ্রাস বিতর্ককে শেষ করা হয়।

মে ২৬ তারিখে, মিই MiMo অফিসিয়াল অ্যাকাউন্ট X-এ ঘোষণা করে: MiMo-V2.5 সিরিজ API-এর স্থায়ী দাম কমানো হয়েছে, সর্বোচ্চ ৯৯% পর্যন্ত ছাড়। সমস্ত context দৈর্ঘ্যের জন্য একক মূল্য নির্ধারণ করা হয়েছে, Token প্যাকেজ ৫-৮ গুণ আপগ্রেড করা হয়েছে।

এই ঘোষণাটি এক সপ্তাহ ধরে দেশীয় এআই সম্প্রদায়ে ভাইরাল হয়েছিল। শিল্পের প্রথম প্রতিক্রিয়া কয়েকটি দলে বিভক্ত হয়েছিল। সবচেয়ে বড় দলটি এটিকে "আবার একটি মূল্য যুদ্ধ" বলেছে—গত দুই বছরে জিজিপু, ডিপসিক, বাইটডান্সের ডোউবাও এবং আলিবাবার টংইয়ি সহ, দেশীয় বড় মডেলগুলি পরপর মূল্য কমিয়েছে, যারা কোনোটিই প্রতিযোগিতায় অংশগ্রহণ করছেননি।

অন্যদিকে নেতিবাচক দৃষ্টিকোণ থেকে দেখা যাচ্ছে: মিনি এখনই ঘোষণা করেছে যে এই বছর তাদের লাভ অর্ধেক হয়ে গেছে, এবং এই সময়েও তারা AI-এ 600 বিলিয়ন ব্যয় করছে এবং API-এর 90% কেটে ফেলছে—এটি একটি প্রকৃত "ক্ষতিতে বাজার দখল"। আরও কেউ মনে করছেন যে এটি DeepSeek-এর প্রভাবের অব্যাহতি—যারা সম্পূর্ণ শিল্পের মূল্যনির্ধারণের ভিত্তিকে মেঝেতে টানে, যে কেউ এটির সাথে মানিয়ে নিতে পারবেন না, তিনি বাজার থেকে বাদ পড়বেন।

বড় মডেল

সুতরাং মিমোর প্রধান হিসেবে, লু ফুলি গতকাল রাতে একটি 5000 শব্দের প্রযুক্তিগত ব্লগ প্রকাশ করেন, যেখানে দাম কমানোর প্রকৌশল খাত সবার জন্য প্রকাশ্য করা হয়।

দেখুন, এটি একটি প্রকৃত প্রকৌশল ক্ষমতা, মার্কেটিং ট্রিক নয়।

রোফলি কী বলছেন তা বুঝতে হলে প্রথমে বুঝতে হবে এই 99% কী কমিয়েছে।

এটি সম্পূর্ণ মডেলের জন্য ছাড় নয়। 99% ছাড় শুধুমাত্র "Input (Cache Hit)" নামক একটি প্রাইসিং টির জন্য প্রযোজ্য—যা "ব্যবহারকারী দীর্ঘ কথোপকথনে ইতিহাসের কনটেক্সট পুনরায় পড়ে"। সাধারণ নতুন ইনপুট (No Cache Hit) এর ছাড় অনেক কম, এবং মডেল আউটপুট (Output) এর ছাড় সবচেয়ে কম।

যদি আপনি মডেলটিকে একটি কফি শপ হিসাবে বিবেচনা করেন, তাহলে এটি বুঝতে সহজ হবে।

আপনি এক কাপ হাফ সুগার ল্যাটে অর্ডার করেন, কফি শপে দুটি পদ্ধতি আছে: প্রতিবার নতুন করে কফি বীনস গ্রাইন করুন, শুগার সিরাপ দিন, দুধ ঢালুন—প্রতিবার কাঁচামাল এবং শ্রমিকের খরচ দিতে হয়; কিন্তু মডেলটি জানে যে এই সপ্তাহে আপনি প্রতিদিন একই হাফ-সুগার ল্যাটে পান করবেন, তাই একটি বড় পাত্রে বানিয়ে ফ্রিজে রেখে দেয়, পরবর্তীবার একটি কাপের জন্য একটি পরিমাণ কেটে নেয়। MiMo এবার দ্বিতীয়টির মতোই করেছে—ব্যবহারকারীদের পুনরাবৃত্তির অংশকে "বর্তমানে গণনা" থেকে "বর্তমানে নেওয়া"-তে পরিবর্তন করেছে, তাই এই অংশের প্রকৃত খরচ ০-এর কাছাকাছি, স্বাভাবিকভাবেই ৯৯% ছাড় দেওয়া যায়।

"ক্যাশ অ্যান্ড ক্যারি" করতে হলে টেক ব্লগে ছয়টি প্রকল্পের কথা বলা হয়েছে, যার প্রতিটি অপরিহার্য। নিচে একে একে বিশ্লেষণ করা যাক।

প্রকল্প ১: মডেলের "মেমোরি" কে ১/৭ এ কমান

মডেলটি আপনার সাথে কথা বলার সময় প্রতিটি টোকেনের জন্য একটি "মধ্যবর্তী অবস্থা" গণনা করে এবং পরবর্তী ধাপের জন্য সংরক্ষণ করে। এটিকে KVCache বলা হয়—এটিকে মডেলের "সংক্ষিপ্ত স্মৃতির নোটবুক" হিসাবে বুঝা যায়। প্রতিটি বাক্য বলার সময়, মডেলটি এই বাক্যটির সারাংশটি নোটবুকে লিখে রাখে, এবং পরবর্তীবার সরাসরি নোট দেখে নেয়, আপনি যা বলেছেন তার সমস্ত বিষয়বস্তু আবার শুনতে হয়না।

প্রাচীন মডেলের প্রতিটি স্তরে "ফুল অ্যাটেনশন" হয়—অর্থাৎ, প্রতিটি টোকেন সম্পূর্ণ কথোপকথনের সমস্ত টোকেন দেখে। এটি মনে হয় যেন আপনি নোটবুকের প্রতিটি পাতা উল্টাচ্ছেন। MiMo-V2.5-Pro এর আর্কিটেকচার পরিবর্তন করা হয়েছে: 70টি স্তরের মধ্যে 60টি শুধুমাত্র সর্বশেষ 128টি টোকেন (SWA, Sliding Window Attention) দেখে, এবং শুধুমাত্র 10টি "আর্কাইভ ম্যানেজার" সমস্তটি দেখে।

ফলাফল হলো KVCache-এর আকার সরাসরি ফুল অ্যাটেনশনের 1/7 এ চাপা পড়েছে, এবং গণনার পরিমাণও 1/7।

এটি খরচ কমানোর প্রথম ভিত্তি। একটি উদাহরণ দিয়ে বলা যাক, আগে প্রতিটি কর্মচারীকে সমস্ত মিটিং রেকর্ড মনে রাখতে হত, ফলে প্রত্যেকের মস্তিষ্কই অপর্যাপ্ত ছিল এবং দক্ষতা কম ছিল। নতুন নিয়মটি 60 জন কর্মচারীর মস্তিষ্কের চাপকে 1/7-এ কমিয়ে 10 জন আর্কাইভ অফিসারকেই সমস্ত ইতিহাস পরিচালনা করতে দিয়েছে—কোম্পানির মোট মেমোরির ক্ষমতা কমেনি, কিন্তু দক্ষতা 7 গুণ বেড়েছে।

প্রকল্প ২: এসডব্লিউএ দ্বারা সঞ্চয় করা স্থানটিকে প্রকৃতপক্ষে ব্যবহারযোগ্য করে তোলা

ল্যাপটপকে সংকুচিত করে 1/7 করা প্রথম ধাপ, কিন্তু "তাত্ত্বিক 1/7" কে বাস্তবিক "বাস্তব 1/7" এ পরিণত করতে এখনও একটি বাধা রয়েছে।

প্রাচীন KVCache সিস্টেমটি সমস্ত স্তরের জন্য "সর্বাধিক সম্ভাব্য ব্যবহার" অনুযায়ী একইভাবে ভিডিও মেমোরি বরাদ্দ করে। অর্থাৎ: যদি 60টি SWA স্তর শুধুমাত্র একটি ছোট বইয়ের প্রয়োজন হয়, তবুও সিস্টেমটি সমস্ত স্তরের জন্য "আর্কাইভ ম্যানেজারের বড় বই"-এর মতো বরাদ্দ করে—SWA-এর দ্বারা সঞ্চয়কৃত স্থানটি অপচয় হয়ে যায়, যা মূলত সঞ্চয় হয়নি।

রো ফুলি দল কেভিকেচকে দুটি স্বাধীন পুলে বিভক্ত করেছে। ফুল অ্যাটেনশনের 10 টি স্তর "বড় পুল" ব্যবহার করে, যেখানে পুরো দৈর্ঘ্য অনুযায়ী বরাদ্দ করা হয়; এবং SWA-এর 60 টি স্তর "ছোট পুল" ব্যবহার করে, যেখানে শুধুমাত্র 128 টোকেনের উইন্ডো অনুযায়ী বরাদ্দ করা হয়।

একটি উদাহরণ দিই, আগে কোম্পানি প্রতিটি কর্মচারীকে "১০০ বছরের ডকুমেন্ট ধরে রাখার জন্য একটি বড় ফাইল ক্যাবিনেট" দিয়েছিল—কিন্তু ৬০ জন কর্মচারীর প্রয়োজন শুধুমাত্র "এক সপ্তাহের ডকুমেন্ট ধরে রাখার জন্য একটি ছোট ক্যাবিনেট"। সেই বড় ক্যাবিনেটগুলির ৯৯% জায়গা খালি। নতুন পদ্ধতিতে, প্রতিটি কর্মচারীকে তাদের প্রকৃত প্রয়োজনের অনুযায়ী ক্যাবিনেট দেওয়া হয়। ফলে, অফিসের মধ্যে ৫ গুণেরও বেশি কর্মচারীকে একসাথে কাজ করানো সম্ভব হয়—একই GPU-এর মাধ্যমে ৫ গুণ বেশি সমসময়িক ব্যবহারকারীকে সার্ভ করা যায়।

এই ধাপটি সহজ মনে হতে পারে, কিন্তু এটি ছাড়া আগের SWA আর্কিটেকচারের সুবিধাগুলি বর্গ হয়ে যায়।

প্রকল্প ৩: "পুরানো ব্যবহারকারীদের পুনরায় পড়া" প্রকৃতপক্ষে ক্যাশে মিলিয়ে দিক

ল্যাপটপ প্রেস করুন 1/7 + স্পেস ব্যবহার করা যায়, পরবর্তী ধাপ হলো একটি পুরনো সমস্যা সমাধান করা: প্রিফিক্স ক্যাশের হিট রেট।

অনেক ব্যবহারকারীর কথোপকথন একই শুরু দিয়ে শুরু হয়—একই সিস্টেম প্রম্পট, একই কোডবেস, একই দীর্ঘ দলিল। সিস্টেম এই ফলাফলগুলি সংরক্ষণ করে, পরবর্তী মিল পেলে সরাসরি পুনর্ব্যবহার করে। এই ক্রিয়াকলাপটিকে প্রিফিক্স ক্যাশিং বলা হয়।

কিন্তু SWA মোডে একটি সমস্যা রয়েছে: দুটি অনুরোধের টোকেন একই হওয়া মানে এটি অবশ্যই KV এখনও বিদ্যমান আছে এমন নয়। প্রিফিক্সটি হয়তো গণনা করা হয়েছে, কিন্তু SWA উইন্ডোর বাইরের অংশটি ইতিমধ্যেই পুরনো হয়ে গেছে। যদি সিস্টেমটি "টোকেন একই হলে হিট" এই পুরনো নিয়মটি অনুসরণ করে পুনরায় ব্যবহার করে, তাহলে এটি অবৈধ বা ওভাররাইট হওয়া ডেটা পড়বে, যার ফলে মডেলের কার্যকারিতা সম্পূর্ণভাবে ধ্বংস হয়ে যাবে।

রোফলি দল নিয়মটিকে "উইন্ডো সেফটি লেংথ" এ আপগ্রেড করেছে—শুধুমাত্র "আপনি যে অংশটি পুরোপুরি ধার দিতে পারবেন" তার প্রতিশ্রুতি দিয়েছে।

একটি উদাহরণ দিই, একটি লাইব্রেরিতে ১ মিলিয়ন বই আছে, এবং আপনি তিন খণ্ডের সম্পূর্ণ সিরিজ "Three-Body Problem" ভাড়া করতে চান। পুরনো সিস্টেম আপনাকে বলবে "এই বইটি উপলব্ধ", কিন্তু আপনি যখন যাবেন, তখন শুধুমাত্র কভার এবং প্রথম খণ্ডটি পাবেন, বাকি দুটি খণ্ড ভাড়া করা হয়ে গেছে। এই "ভুল মিল" আপনাকে অপ্রয়োজনীয়ভাবে ঘুরিয়ে ফেলেছে এবং আবার ভাড়া করতে হয়েছে। নতুন সিস্টেমের নিয়মটি হল—শুধুমাত্র সম্পূর্ণভাবে ভাড়া করা যায় এমন অংশগুলিই প্রতিশ্রুতি দেওয়া হবে—প্রথমে প্রথম খণ্ডটি দেওয়া হবে, তারপর বাকি দুটি খণ্ডটি আনা হবে।

এটি বেশি কঠোর হওয়ার মতো শোনাচ্ছে, তাই হিট রেট কমে যাবে। কিন্তু বাস্তবে ঠিক উল্টো: কারণ SWA এর কারণে KVCache-এর আকার 1/7 এ কমে যায়, একই স্টোরেজ স্পেসে অনেকগুণ বেশি কনটেন্ট ফিট হয়, ফলে বাস্তব হিট রেট উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

রো ফুলির ব্লগে অনলাইন পরীক্ষার ডেটা দেওয়া হয়েছে: প্রধান হারনেস ফ্রেমওয়ার্কে সার্ভার-সাইড ক্যাশ হিট রেটের গড় 93%, উচ্চ ফ্রিকোয়েন্সি দীর্ঘ-সময়কালের ব্যবহারকারীদের ক্ষেত্রে 95% এর বেশি।

95% পুনরাবৃত্ত পাঠের অনুরোধ কোনও জিপিইউ গণনা ছাড়াই ক্যাশে থেকে সরাসরি পাওয়া যায়। এটিই 99% ছাড়ের ভৌত ভিত্তি।

প্রকল্প ৪: "ক্যাশ" কে GPU-এর সহজাত SSD-এ স্থানান্তর করুন

সঠিকতা বেড়েছে, পরবর্তী প্রশ্ন: এই ক্যাশগুলি কোথায় সংরক্ষণ করা হয়।

ভিজুয়াল মেমোরি (GPU-এর HBM মেমোরি) খুব ব্যয়বহুল এবং সীমিত—একটি H100 অ্যাটা-কার্ড মেশিনে শুধুমাত্র 640GB ভিজুয়াল মেমোরি আছে, কিন্তু MiMo-এর জন্য সংরক্ষণ করতে হবে KVCache-এর পরিমাণ কয়েক দশক TB-এর কাছাকাছি। তাই এটিকে স্তরবদ্ধ করতে হবে: সর্বশেষ ব্যবহৃত ডেটা L1-এ ভিজুয়াল মেমোরিতে, কিছুটা পুরনো ডেটা L2-এ CPU মেমোরিতে, এবং ঠাণ্ডা ডেটা L3-এ ডিস্ট্রিবিউটেড ক্যাশেতে সংরক্ষণ করতে হবে।

আপনার টাকা ব্যবস্থাপনা করার সাথে একই বিষয়। ওয়ালেটের নগদ টাকা হলো ভিডিও মেমোরি—যেকোনো সময় ব্যবহার করা যায়, কিন্তু কম পরিমাণে রাখা যায়। ব্যাংক কার্ডের ব্যালেন্স হলো CPU মেমোরি—একবার তুলতে ৩০ সেকেন্ড লাগে, কিন্তু অনেক পরিমাণে রাখা যায়। ডিপোজিট হলো L3 ডিস্ট্রিবিউটেড ক্যাশ—একবার তুলতে ২ মিনিট লাগে, কিন্তু অনেক সস্তা।

শিল্পের সাধারণ অনুশীলন হলো L3-এর জন্য আলাদা স্টোরেজ ক্লাস্টার তৈরি করা, বিশেষ মডেল এবং বিশেষ ডেটা সেন্টার, প্রতি মাসে ভাড়া পরিশোধ করা।

মাইক্রোসফট স্টোরেজ টিমের পদ্ধতি ভিন্ন। তারা একটি নিজস্ব ডিস্ট্রিবিউটেড ক্যাশে তৈরি করেছে যার নাম GCache, যা সরাসরি GPU মেশিনের সঙ্গে আসা SSD-এ ডিপ্লয় করা হয়—একই মেশিনে ট্রেনিং এবং ইনফারেন্স টাস্কগুলির সাথে মিশ্রিতভাবে।

বড় মডেল

অন্যরা বড় পরিমাণ ডেটা সংরক্ষণের জন্য একটি গুদাম ভাড়া করেছিল; মিই দেখল যে GPU মেশিনের গারেজটি খালি রয়েছে, সোজাসুজি ডেটাটি সেখানে সংরক্ষণ করে ফেলল। মাসিক ভাড়া বাঁচল।

অতিরিক্ত স্টোরেজ খরচ 0।

এই বিষয়টির প্রভাব দেখার চেয়ে অনেক বেশি। সাধারণ "AI কোম্পানির ক্যালকুলেশন বিল" এ, স্টোরেজ খরচ একটি স্থির ব্যয়—আপনার মডেলটি যত বড় হবে এবং ব্যবহারকারী যত বেশি হবে, স্টোরেজ বিলটি তত দীর্ঘ হবে। GCache-এর এই পদ্ধতি এই খরচটিকে সম্পূর্ণভাবে বাতিল করে দেয়। SWA-এর ছোট আকার + 93-95% হিট রেটের সাথে মিলিয়ে, L3-এ KVCache-এর অস্তিত্বকাল (TTL) কয়েক মিনিট থেকে কয়েক ঘন্টা বা এমনকি কয়েকদিন পর্যন্ত বাড়িয়ে দেওয়া হয়েছে—TTL যত বেশি, ইতিহাসগত context-এর হিটের জন্য সময়কাল তত বড়, ক্যাশে হিট রেটও তত বেশি, 99% ডিসকাউন্টটি তখনই স্থিতিশীল হয়।

প্রকল্প ৫: ক্যাশে মিলে যাওয়া অনুরোধগুলিকে সবচেয়ে সংক্ষিপ্ত পথে পাঠান

ক্যাশে সংরক্ষণ করা যায়, খুঁজে পাওয়া যায়, এবং সস্তা, শেষ পদক্ষেপটি হল: সঠিক অনুরোধগুলিকে সঠিক মেশিনে রাউট করা।

মাইক্রোসফট একটি নিজস্ব স্কিডিউলিং সিস্টেম তৈরি করেছে যার নাম LLM-Router, যা তিনটি কাজ করে:

প্রথমত, স্নিগ্ধ স্কেডিউলিং। একই প্রিফিক্সযুক্ত অনুরোধগুলি একই মেশিনে রাউট করা হয়, যাতে ক্যাশে পুনঃব্যবহার সর্বাধিক হয়।

দ্বিতীয়ত, দৈর্ঘ্য অনুযায়ী বাকেটিং। সংক্ষিপ্ত অনুরোধ (0-64K), মধ্যম অনুরোধ (64K-256K) এবং দীর্ঘ অনুরোধ (256K-1M) কে আলাদা প্রক্রিয়াকরণ চ্যানেলে পাঠান, যাতে সংক্ষিপ্ত অনুরোধগুলি দীর্ঘ অনুরোধগুলির কারণে বিলম্বিত না হয়।

তৃতীয়ত, TTFT অপ্টিমাইজেশন। অপেক্ষার সারিতে, বাস্তব গণনার পরিমাণ কম বিশিষ্ট অনুরোধগুলিকে (যেমন ক্যাশে ম্যাচ হওয়া অনুরোধ) প্রাধান্য দিন—এগুলিকে "সম্পূর্ণ নতুন ইনপুট"-এর মতো ভারী গণনা অনুরোধগুলির দ্বারা বাধা দেওয়া থেকে বিরত রাখুন।

উদাহরণস্বরূপ, একটি সাধারণ বিমানবন্দর সময়সূচীতে, একই গন্তব্যের জন্য উড়ে যাওয়া সমস্ত যাত্রীদের একই অপেক্ষার কক্ষে একত্রিত করা হয়, যেখানে তারা একই ব্যাগের প্রাপ্তি প্রক্রিয়াটি শেয়ার করে—এটি হল অ্যাফিনিটি স্কেডিউলিং। হাতের ব্যাগ নিয়ে যাওয়া যাত্রীদের এবং ৩টি বড় ব্যাগ চেক-ইন করা যাত্রীদের আলাদা সিকিউরিটি চেকিং চ্যানেলে পাঠানো হয়, যাতে দ্রুতগতির যাত্রীদের ধীরগতির যাত্রীদের দ্বারা ধীর হওয়ার দরকার না হয়—এটি হল লেংথ-ব্যাকেটিং। বিমানে চড়ার সময়, শুধুমাত্র হাতের ব্যাগ নিয়ে যাওয়া যাত্রীদেরকে প্রথমে অনুমতি দেওয়া হয়, কারণ তারা দ্রুতভাবে বিমানে প্রবেশ করে, যার ফলে বিমানটি আগেই উড়ে যেতে পারে—এটি হল TTFT অপটিমাইজেশন।

এই স্কিডিউলিং কৌশলটি প্রায়োগিকভাবে L2 ক্যাশ হিট রেটকে 25% বাড়িয়েছে, একক মেশিনে ইনপুট থ্রুপুটকে 30% বাড়িয়েছে এবং দীর্ঘ অনুরোধের P90 ল্যাটেন্সি 30% কমিয়েছে।

একই GPU দিয়ে আরও বেশি ব্যবহারকারীকে সার্ভ করা যায়। দাম কমানোর অন্য অর্ধেক যুক্তি এখানেই—প্রতি ইউনিট ক্যালকুলেশন ক্ষমতার কার্যকর আউটপুট বেশি, প্রতি ব্যবহারকারীর খরচ কম।

প্রকল্প ৬: মডেলের "টাইপিং" দ্রুত করুন

প্রথম পাঁচটি বিষয় সবই "পড়া" দিকটিকে অপ্টিমাইজ করছে—ব্যবহারকারীকে ইতিহাসের কনটেক্সট পুনরায় পড়ার খরচকে প্রায় শূন্যে নামিয়ে আনছে। ষষ্ঠটি হল "লেখা" দিকটিকে অপ্টিমাইজ করা—অর্থাৎ মডেলটি পরবর্তী টোকেন জেনারেট করার প্রক্রিয়া।

প্রাচীন মডেল একসাথে শুধুমাত্র 1 টি টোকেন তৈরি করতে পারে। MiMo মূলত 3 স্তরের MTP (Multi-Token Prediction) সমর্থন করে—একসাথে পরবর্তী 3 টি টোকেন পূর্বানুমান করা, যদি মধ্যবর্তী পূর্বানুমান সঠিক হয়, তবে মধ্যবর্তী গণনা বাদ দিয়ে দেওয়া হয়।

একটি উদাহরণ দিয়ে বলা যাক, প্রাচীন টাইপিংয়ে আপনি একটি করে অক্ষর টাইপ করেন—আপনি যদি "আজকের আবহাওয়া" টাইপ করতে চান, তাহলে 4 বার কী চাপতে হবে। MTP-এর মতো একটি অটো-কমপ্লিট আছে যা আপনার পরবর্তী 1-2টি অক্ষর অনুমান করে—যদি এটি সঠিক অনুমান করে, তাহলে আপনাকে সেই দুইবার কী চাপতে হবে না।

MiMo-এর MTP এজেন্টিক স্কেনারিওতে পরীক্ষা করে দেখা গেছে: প্রথম 128 টোকেনের জন্য 2.3 গুণ দ্রুততা, 128-256 টোকেনের জন্য 1.5 গুণ দ্রুততা।

এই বিষয়টির গুরুত্ব হলো, 99% ডিসকাউন্ট শুধুমাত্র Input (Cache Hit) এর জন্য প্রযোজ্য, কিন্তু মডেল বাস্তবে ব্যবহারকারীদের সেবা দেওয়ার সময়, input এবং output একই রিকোয়েস্টের মধ্যে ঘটে—যদি output সংরক্ষিত না হয়, তাহলে মোট রিকোয়েস্ট খরচ শুধুমাত্র অর্ধেক কমে। MTP এর মাধ্যমে output-এর অর্ধেক খরচও কমানো যায়, যাতে সম্পূর্ণ ডিসকাউন্টের লাভের মডেলটি সম্পূর্ণ হয়।

ছয়টি বিষয়কে একটি খরচ হ্রাস শৃঙ্খলে যোগ করুন:

SWA আর্কিটেকচার → KVCache 1/7 → ডুয়াল পুল সত্যিকারের ক্ষমতা মুক্তি → একই GPU-এ 5+ গুণ কনকারেন্সি সংগ্রহ করা যায় → প্রিফিক্স ক্যাশে হিট রেট 93-95% → 95% অনুরোধের জন্য প্রায় কোনো গণনা লাগে না → GCache স্টোরেজ খরচকে শূন্যে নিয়ে আসে → স্কিডিউলিং হিট অনুরোধগুলিকে প্রাধান্য দেয় → MTP জেনারেশনও বাঁচায় → প্রতি অনুরোধের GPU সময় এক অর্ডার ম্যাগনিটিউড কমে যায় → প্রতি একক খরচ 95%+ কমে যায় → মূল্য 99% কমে, তবুও মার্জিন লাভ ধনাত্মক।

যেকোনো একটি ধাপ অনুপস্থিত থাকলে, এই শৃঙ্খলটি কোনো এক ধাপে ভেঙে পড়ে। 99% ছাড় হল একটি বিপণন সংখ্যা নয়, বরং ছয়টি প্রকৌশল স্তম্ভের সমন্বয় এবং বাস্তব অনলাইন যাচাইয়ের পরে জমা হওয়া সমষ্টিগত প্রভাব।

শিল্পের প্রাথমিক বিভিন্ন ব্যাখ্যাগুলির প্রতিটিরই কিছুটা যুক্তি ছিল। গত দুই বছরে চীনা বড় মডেল কোম্পানিগুলির মধ্যে মূল্য যুদ্ধ বাস্তবিকই ঘটেছে; মিই লাভের অর্ধেক হারিয়েও AI-এ বিনিয়োগ করছে বাস্তবিক; ডিপসিক শিল্পের মূল্যনির্ধারণকে মেঝেতে টেনে আনেছে বাস্তবিক।

কিন্তু রোফুলি এবার প্রকাশ্যে একটি টেকনিক্যাল ব্লগ পোস্ট করেছেন এবং বিস্তারিত টেকনিক্যাল ডিটেইলস বিশ্লেষণ করেছেন, যা অনিশ্চিতভাবেই মূল্যযুদ্ধের দাবির প্রতিক্রিয়া হিসেবে আসা হয়েছে, যাতে “টেকনিক্যাল সমস্যা টেকনিক্যাল হোক, মার্কেটিং সমস্যা মার্কেটিং হোক।”

তিনি ব্লগে লিখেছেন যে, MiMo-V2.5 সিরিজ মডেলের ইনফারেন্স দক্ষতা কোনো একটি ধাপের একক বিপ্লবের ফলাফল নয়, বরং বহুমাত্রিক সমন্বিত অপ্টিমাইজেশনের ফলাফল। Hybrid SWA প্রিফিল এবং ডিকোড উভয়কেই সুবিধা দেয়, কিন্তু যথাযথভাবে অপ্টিমাইজ করা না হওয়া KVCache বাস্তবায়নটি বিভিন্ন ধাপে খরচ বাড়িয়ে দেয়। এই লক্ষ্যের চারপাশে, MiMo টিম KVCache ম্যানেজমেন্ট, হাইব্রিড ক্যাশিং, প্রিফিক্স ক্যাশিং ট্রির সম্পূর্ণ পুনঃগঠন করেছে, SWA KVCache-এর মূল সমস্যা সমাধান করেছে, স্কিডিউলিং স্ট্র্যাটেজি এবং Prefill / Decode লিঙ্ককে অপ্টিমাইজ করেছে, এবং অনলাইনের বাস্তব স্কেনারিওতে পরীক্ষা করেছে, যার ফলে তাদের তাত্ত্বিক দক্ষতা উৎপাদন পরিবেশে বাস্তবায়িত হয়েছে। এখন Hybrid SWA-এর দীর্ঘ টেক্সট ইনফারেন্সের জন্য শক্তি এবং দক্ষতা উভয়ই প্রদানকারী আর্কিটেকচারাল সুবিধা পূর্ণভাবে প্রকাশিত হয়েছে। MoE কনফিগারেশন এবং মাল্টিমডাল ইনফারেন্সের বিভিন্ন অপ্টিমাইজেশনকেও একত্রিত করে, অনলাইন ইনফারেন্স সার্ভিসের পারফরম্যান্সকে অনেকটা উন্নতি করা হয়েছে।

এটি একটি সিস্টেম্যাটিক এআই ইঞ্জিনিয়ারিং পদ্ধতি, যা শিল্পের জন্য খরচ কমানোর একটি উল্লেখযোগ্য পদ্ধতি।

মূল্য যুদ্ধের জন্য ব্লগ লেখার দরকার হয় না, ইঞ্জিনিয়ারিং বাস্তবায়নের জন্যই দরকার।