می می نے MiMo-V2.5-Pro-UltraSpeed جاری کیا ہے، جو اس کے تریلین پیرامیٹر فلگشپ ماڈل کا تیز رفتار انفرنس ورژن ہے۔ کمپنی کے مطابق، نئے ورژن کی انفرنس رفتار ایک معیاری سرور پر، جس میں 8 جنرل پرپوز GPU ہیں، 1000 سے زیادہ ٹوکن فی سیکنڈ سے زیادہ ہو گئی ہے، اور ڈیمو کا پیک مقدار تقریباً 1200 ٹوکن ہے۔
اس اپڈیٹ کا مرکز نئے ماڈل پر نہیں، بلکہ انفریسنگ کی کارکردگی پر ہے۔ میئو نے کسٹم چپس پر انحصار کرنے والے حل کے بجائے عام ہارڈویئر کا استعمال کرنے پر زور دیا ہے، اور اس کے ساتھ سافٹ ویئر اور ماڈل کی طرف سے بہتری کے ذریعے تیزی لائی ہے۔ اس کا مطلب یہ ہے کہ بڑے ماڈلز کو تیزی سے ڈپلوی کرنے کی رکاوٹ مزید کم ہو سکتی ہے۔
دو ٹیکنالوجیز تیزی لانے میں مدد کر رہی ہیں
اس بار، شاومی نے دو اہم ٹیکنالوجیز استعمال کیں۔ پہلی ٹیکنالوجی FP4 کوانتائزیشن ہے۔ کمپنی نے ماڈل کے اہم پیرامیٹرز والے اسپیشلسٹ لیئرز کو 4-bit درجہ تک دبایا ہے، جبکہ باقی حصے کو ابھی بھی اعلی درجہ کی درستگی پر برقرار رکھا گیا ہے۔ اس سے ویڈیو میموری کا استعمال اور بینڈ ویتھ کا دباؤ کم ہوتا ہے، جس سے انفرینس سپیڈ میں اضافہ ہوتا ہے۔
دوسرا DFlash کا اندازہ زن تحلیل ہے۔ روایتی اندازہ زن تحلیل عام طور پر پہلے ایک چھوٹی ماڈل سے کم ٹوکنز کا پیش گوئی کی جاتی ہے، پھر بڑی ماڈل انہیں متوازی طور پر تصدیق کرتی ہے۔ DFlash اس کے بجائے پورے ٹوکن بلاک کو ایک ساتھ پیش کرتا ہے، جسے بنیادی ماڈل تصدیق کرتا ہے۔ کوڈنگ کے کاموں میں، بنیادی ماڈل فی راؤنڈ میں 8 امکانی ٹوکنز میں سے 6.3 کو قبول کرتا ہے۔
میاو اور ریزنگ کے شراکت دار TileRT نے اجراء کے عمل کو بھی بہتر بنایا ہے۔ ان کا خیال یہ ہے کہ کمپوٹیشن کا عمل GPU کے اندر مستقل رکھا جائے تاکہ آپریٹرز کے الگ الگ شروع ہونے سے ہونے والی اضافی لاگت کم ہو۔
مین لائن ماڈلز کی رفتار کا موازنہ
مذکورہ مضمون میں Artificial Analysis کے اعداد و شمار کے مطابق، موجودہ عام ماڈلز کی پیداواری رفتار عام طور پر اس سطح سے کم ہے۔ رپورٹ میں بتایا گیا ہے کہ GPT سیریز کی عام انٹرایکشن رفتار تقریباً 68 ٹوکن فی سیکنڈ، Claude Opus 4.6 کی تقریباً 71 ٹوکن فی سیکنڈ، اور Gemini Flash کی تقریباً 192 ٹوکن فی سیکنڈ ہے۔
رپورٹ میں یہ بھی کہا گیا کہ سیریبراس اور گروک جیسی کمپنیاں لمبے عرصے سے اعلیٰ ٹریفک انفرنس کے لیے تیار ہیں اور اپنی خود ساختہ چپ آرکیٹیکچر کا استعمال کرکے رفتار میں اضافہ کرتی ہیں۔ مقابلے میں، شاومی نے اس نتیجے کو عام GPU نوڈس پر حاصل کیا ہے، جس میں صرف سافٹ ویئر کے بہترین طریقے سے پرفارمنس میں اضافہ کیا گیا ہے۔
9 جون کو محدود ٹیسٹ استعمال شروع ہوگا
小米 نے کہا کہ UltraSpeed اصل MiMo-V2.5-Pro کو تیز کرتا ہے، نہ کہ سادہ ورژن۔ اس ماڈل کی پہلے کوڈ بینچ مارکس میں کارکردگی کو Claude Opus کے قریب بیان کیا گیا تھا۔
کمپنی 9 جون سے 23 جون تک محدود API ٹرائل کھولنے کا منصوبہ رکھتی ہے، جس کے لیے درخواست کی ضرورت ہوگی، اور کاروباری صارفین اور پیشہ ورانہ ڈویلپرز کو ترجیح دی جائے گی۔ قیمت کے لحاظ سے، UltraSpeed ورژن کی قیمت معیاری MiMo فیس کے تقریباً 3 گنا ہوگی، لیکن پیداواری رفتار تقریباً 10 گنا بڑھ جائے گی۔
مکمل معلومات: میائو نے کہا کہ FP4 اور DFlash کے ساتھ استعمال ہونے والے چیک پوائنٹ ماڈلز Hugging Face پر کمیونٹی کے لیے اوپن سورس ہو چکے ہیں۔
