Xiaomi ने MiMo-V2.5-Pro-UltraSpeed जारी किया है, जो उसके ट्रिलियन पैरामीटर फ्लैगशिप मॉडल का त्वरित निष्पादन संस्करण है। कंपनी के अनुसार, नया संस्करण 8 सामान्य GPU से बनी मानक सर्वर पर 1000 टोकन प्रति सेकंड से अधिक की निष्पादन गति प्राप्त कर चुका है, और शीर्ष गति लगभग 1200 टोकन है।
इस अपडेट का ध्यान नए मॉडल पर नहीं, बल्कि निष्पादन की दक्षता पर है। माइक्रोमी ने कस्टम चिप्स पर निर्भर करने के बजाय सामान्य हार्डवेयर का उपयोग किया है और सॉफ्टवेयर और मॉडल-स्तरीय अनुकूलन के माध्यम से गति बढ़ाई है। इसका अर्थ है कि बड़े मॉडल को तेजी से डिप्लॉय करने की सीमा और कम हो सकती है।
दो तकनीकें तेजी लाती हैं
इस बार, शाओमी ने मुख्य रूप से दो तकनीकों का उपयोग किया। पहली तकनीक FP4 क्वांटाइजेशन है। कंपनी ने मॉडल के प्रमुख पैरामीटर आकार वाले एक्सपर्ट लेयर्स को 4-बिट सटीकता तक संपीड़ित कर दिया है, जबकि शेष हिस्से अभी भी उच्च सटीकता पर बने रहे हैं। इससे वीडियो मेमोरी का उपयोग और बैंडविड्थ का दबाव कम होता है, जिससे निष्पादन गति में वृद्धि होती है।
दूसरा डीफ्लैश अनुमानित डिकोडिंग है। पारंपरिक अनुमानित डिकोडिंग में आमतौर पर छोटे मॉडल द्वारा कुछ टोकन का अनुमान लगाया जाता है, और फिर बड़े मॉडल द्वारा समानांतर रूप से सत्यापन किया जाता है। डीफ्लैश इसके बजाय पूरे टोकन ब्लॉक को एक साथ प्रस्तुत करता है, जिसे मुख्य मॉडल द्वारा सत्यापित किया जाता है। कोडिंग कार्यों में, मुख्य मॉडल प्रति चक्र औसतन 8 प्रत्याशी टोकन में से 6.3 टोकन स्वीकार करता है।
Xiaomi और इन्फरेंस साझेदार TileRT ने निष्पादन प्रक्रिया को भी अनुकूलित किया है। उनका विचार यह है कि गणना प्रक्रिया को GPU के अंदर स्थायी रूप से रखा जाए, ताकि ऑपरेटर्स के क्रमिक स्टार्ट होने से होने वाला अतिरिक्त ओवरहेड कम हो।
Mainstream model speed comparison
Artificial Analysis के संदर्भ के अनुसार, वर्तमान में प्रमुख सामान्य मॉडल की आउटपुट गति आमतौर पर इस स्तर से कम है। रिपोर्ट में उल्लेख किया गया है कि GPT श्रृंखला की सामान्य इंटरैक्शन गति लगभग 68 टोकन प्रति सेकंड है, Claude Opus 4.6 की लगभग 71 टोकन प्रति सेकंड है, और Gemini Flash की लगभग 192 टोकन प्रति सेकंड है।
रिपोर्ट में यह भी उल्लेख किया गया कि Cerebras और Groq जैसी कंपनियाँ लंबे समय से उच्च थ्रूपुट निष्कर्षण पर केंद्रित हैं और अपने स्वयं के चिप आर्किटेक्चर का उपयोग करके गति में सुधार करती हैं। इसके विपरीत, Xiaomi ने इस परिणाम को सामान्य GPU नोड पर प्राप्त किया है, जो सॉफ्टवेयर अनुकूलन द्वारा प्रदर्शन में सुधार पर जोर देता है।
9 जून को सीमित ट्रायल शुरू होगा
मी ने बताया कि UltraSpeed मूल MiMo-V2.5-Pro को तेज करता है, न कि सरलीकृत हल्के मॉडल को। पहले इस मॉडल का कोड बेंचमार्क में प्रदर्शन Claude Opus के स्तर के करीब बताया गया था।
कंपनी 9 जून से 23 जून तक सीमित API ट्रायल लॉन्च करने की योजना बना रही है, जिसमें आवेदन प्रणाली लागू होगी, और उद्यमियों और पेशेवर डेवलपर्स को प्राथमिकता दी जाएगी। मूल्य निर्धारण के संदर्भ में, अल्ट्रास्पीड संस्करण की कीमत मानक MiMo शुल्क के लगभग 3 गुना होगी, लेकिन उत्पादन गति लगभग 10 गुना तक बढ़ सकती है।
अतिरिक्त जानकारी: शाओमी ने कहा कि FP4 और DFlash का उपयोग करने वाला चेकपॉइंट मॉडल Hugging Face पर ओपन सोर्स कर दिया गया है, ताकि समुदाय इसका परीक्षण कर सके।
