মিনি তাদের ট্রিলিয়ন প্যারামিটার ফ্ল্যাগশিপ মডেলের গতি বৃদ্ধি পাওয়া উপস্থাপনা সংস্করণ MiMo-V2.5-Pro-UltraSpeed প্রকাশ করেছে। কোম্পানি বলেছে, নতুন সংস্করণটি 8টি সাধারণ GPU দিয়ে গঠিত একটি স্ট্যান্ডার্ড সার্ভারে 1000টি টোকেনের বেশি প্রতি সেকেন্ডে উপস্থাপনা গতি অর্জন করেছে, যার শীর্ষ প্রদর্শন 1200টি টোকেনের কাছাকাছি।
এই আপডেটের মূল ফোকাস নতুন মডেলের উপর নয়, বরং ইনফারেন্স দক্ষতার উপর। কাস্টম চিপের উপর নির্ভরশীল সমাধানের তুলনায়, শিওমি এবার জেনেরিক হার্ডওয়্যার ব্যবহার করে সফটওয়্যার এবং মডেল-সাইড অপ্টিমাইজেশনের মাধ্যমে গতি বৃদ্ধির প্রতি জোর দিচ্ছে। এর অর্থ হলো, বড় মডেলগুলি দ্রুত ডিপ্লয় করার বাধা আরও কমে যেতে পারে।
দুটি প্রযুক্তি গতি বৃদ্ধি করছে
এই প্রকল্পে শিওমি মূলত দুটি প্রযুক্তি ব্যবহার করেছে। প্রথমটি হল FP4 কোয়ান্টাইজেশন। কোম্পানিটি মডেলের প্রধান প্যারামিটার আকার বিশিষ্ট এক্সপার্ট লেয়ারগুলিকে 4-বিট প্রেসিশনে সংকুচিত করেছে, অন্যান্য অংশগুলি উচ্চ প্রেসিশনে রেখেছে। এটি গ্রাফিক্স মেমরির ব্যবহার এবং ব্যান্ডউইথের চাপ কমিয়ে ইনফারেন্স গতি বাড়ায়।
দ্বিতীয়টি হল DFlash অনুমানমূলক ডিকোডিং। প্রচলিত অনুমানমূলক ডিকোডিংয়ে সাধারণত ছোট মডেলটি কয়েকটি টোকেন পূর্বানুমান করে, তারপর বড় মডেলটি সমান্তরালভাবে যাচাই করে। DFlash এর ক্ষেত্রে একসাথে সম্পূর্ণ টোকেন ব্লকটি প্রস্তাব করা হয়, এবং তারপর মূল মডেলটি এটি যাচাই করে। কোডিং টাস্কগুলিতে, মূল মডেলটি প্রতিটি রাউন্ডে 8টি প্রত্যাশিত টোকেনের মধ্যে 6.3টি গ্রহণ করে।
মিনি এবং রিজনিং পার্টনার TileRT এক্সিকিউশন প্রক্রিয়াটিও অপ্টিমাইজ করেছে। এর ধারণা হলো গণনা প্রক্রিয়াটি GPU-এর ভিতরে স্থায়ীভাবে রাখা, যাতে অপারেটরগুলির ধাপে ধাপে শুরু হওয়ার অতিরিক্ত খরচ কমে যায়।
প্রধান মডেলের গতির তুলনা
উল্লিখিত Artificial Analysis ডেটা অনুযায়ী, বর্তমানে প্রচলিত সাধারণ মডেলগুলির আউটপুট গতি সাধারণত এই স্তরের নিচে। প্রতিবেদনটি উল্লেখ করে যে, GPT সিরিজের সাধারণ ইন্টারেকশন গতি প্রায় ৬৮ টোকেন/সেকেন্ড, Claude Opus 4.6 প্রায় ৭১ টোকেন/সেকেন্ড, এবং Gemini Flash প্রায় ১৯২ টোকেন/সেকেন্ড।
প্রতিবেদনটি উল্লেখ করে যে, সিরিব্রাস এবং গ্রোকের মতো কোম্পানিগুলি দীর্ঘদিন ধরে উচ্চ থ্রুপুট ইনফারেন্সের জন্য প্রস্তুতি নিয়েছে এবং গতি বাড়ানোর জন্য নিজস্ব চিপ আর্কিটেকচারের উপর নির্ভরশীল। অন্যদিকে, শাওমি এই ফলাফলটি সাধারণ GPU নোডে অর্জন করেছে, যা সফটওয়্যার অপ্টিমাইজেশনের মাধ্যমে পারফরম্যান্সের উন্নতির উপর জোর দেয়।
জুন ৯ তারিখে সীমিত পরীক্ষামূলক ব্যবহার শুরু
মিনি বলেছে যে, UltraSpeed মূল MiMo-V2.5-Pro কে ত্বরান্বিত করে, সরলীকৃত হালকা মডেল নয়। এই মডেলটি আগে কোড বেঞ্চমার্কে ক্লড ওপাসের স্তরের কাছাকাছি পারফরম্যান্স দেখিয়েছিল।
কোম্পানি ৯ জুন থেকে ২৩ জুন পর্যন্ত সীমিত এপিআই ট্রায়াল চালু করবে, যা আবেদন ভিত্তিক। কোম্পানি ব্যবহারকারী এবং পেশাদার ডেভেলপারদের অগ্রাধিকার দেওয়া হবে। মূল্যনির্ধারণের ক্ষেত্রে, আলট্রাস্পিড ভার্সনের মূল্য স্ট্যান্ডার্ড MiMo ফির প্রায় ৩ গুণ, কিন্তু উত্পাদন গতি প্রায় ১০ গুণ বৃদ্ধি পাবে।
অতিরিক্ত তথ্য: মিয়াও জানিয়েছে যে FP4 এবং DFlash ব্যবহার করে তৈরি চেকপয়েন্ট মডেলটি Hugging Face-এ ওপেন-সোর্স করা হয়েছে, যাতে সম্প্রদায় এটি পরীক্ষা করতে পারে।
