شیائومی MiMo API نے انجینئرنگ کی نئی کامیابیوں کے ساتھ قیمتیں 99% کم کر دیں

icon MarsBit
بانٹیں
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconخلاصہ

expand icon
ایکسیومی میمو نے 26 مئی کو میمو-وی 2.5 API کی قیمتیں 99 فیصد تک کم کر دیں، جس میں دہرائے گئے تاریخی سیاق و سباق کے پڑھنے کے لیے 'ان پٹ (کیش ہٹ)' کی لاگت پر توجہ مرکوز کی گئی۔ لو فولی نے ایک 5,000 الفاظ کے بلاگ میں ستہ تکنیکی اشارے درج کیے، جن میں KVCache کو 70 فیصد تک کم کرنے والی SWA آرکیٹیکچر، ڈوئل-پول میموری، اور GPU SSD کیشینگ شامل ہیں۔ ان آن-چین ڈیٹا-ڈرائون آپٹیمائزیشنز سے کیش ہٹ ریٹس بڑھتی ہیں اور GPU استعمال کم ہوتا ہے، جس سے خالص مارجن مثبت رکھتے ہوئے ڈسکاؤنٹ ممکن ہوتا ہے۔

مصنف: شانگ شیانزهي

رو فلی نے ایک ایکس پوسٹ کیا جس میں می میمو کی قیمت کم کرنے کے تنازعے پر ختمہ لگانا چاہا۔

26 مئی کو، می میمو نے ایک اعلان جاری کیا: MiMo-V2.5 سیریز API کی قیمتیں ہمیشہ کے لیے کم کر دی گئیں، جس میں سب سے زیادہ 99% تک کی کمی ہوئی۔ تمام کنٹیکس لمبائیوں کی قیمت ایک جیسی ہو گئی، اور ٹوکن پیکجز 5 سے 8 گنا تک بہتر بنائے گئے۔

یہ اعلان پورے ایک ہفتے تک چین کے AI دنیا میں وائرل رہا۔ صنعت کے پہلے رد عمل کئی فرقوں میں تقسیم ہو گیا۔ سب سے بڑا فرقہ کہتا ہے کہ یہ "دوبارہ قیمت کی جنگ" ہے — پچھلے دو سالوں میں زھی پو، DeepSeek، جیٹی ڈوباؤ اور علی بابا کے تونگ یی تک، چینی بڑے ماڈلز نے ایک کے بعد ایک قیمتیں کم کر دیں، اور کوئی بھی اس مقابلے سے باہر نہیں ہوا۔

دوسری نظر سے مایوسی کا خیال یہ ہے کہ میئو نے اعلان کیا ہے کہ اس سال اس کا منافع آدھا ہو گیا، اور اب اس نے AI پر 60 ارب ڈالر خرچ کرنے کا فیصلہ کیا ہے، جبکہ API کو 90 فیصد تک کم کر دیا گیا ہے—یہ "نقصان کے ساتھ مارکیٹ حاصل کرنے" کا کلاسک مثال ہے۔ کچھ لوگ سمجھتے ہیں کہ یہ DeepSeek کے اثر کا جاری رہنا ہے—جس نے پورے صنعت کی قیمت متعین کرنے والی بنیاد کو زمین تک لے آیا، جو کوئی اس کے ساتھ نہیں چلے گا وہ باہر ہو جائے گا۔

بڑا ماڈل

اس لیے، میمو کے سربراہ کے طور پر، رو فولی نے کل رات ایک 5000 الفاظ کا ٹیکنیکل بلاگ فوراً شائع کیا اور قیمت میں کمی کے انجینئرنگ اخراجات کو سب کے سامنے رکھ دیا۔

دیکھیں، یہ اصل انجینئرنگ کابیلیت ہے، نہ کہ مارکیٹنگ کا ذریعہ۔

روفلی کی بات سمجھنے کے لیے، پہلے یہ سمجھنا ضروری ہے کہ 99% کس چیز میں کمی آئی ہے۔

یہ مکمل ماڈل کی قیمت میں کمی نہیں ہے۔ 99% کی چھوٹ صرف ایک قیمت گروپ "Input (Cache Hit)" کے لیے ہے — جو "صارف لمبی گفتگو میں تاریخی کنٹیکس کو دوبارہ پڑھتا ہے" اس حصے کے لیے ہے۔ عام نئے ان پٹ (No Cache Hit) کی چھوٹ کافی کم ہے، اور ماڈل آؤٹ پٹ (Output) کی چھوٹ سب سے کم ہے۔

اگر آپ ماڈل کو ایک کافی شاپ کے طور پر سمجھیں، تو یہ بات آسان ہو جائے گی۔

آپ نے ایک آدھی چینی والی نیٹو آرڈر کی، کافی شاپ کے پاس دو طریقے ہیں: ہر بار دانے پیسنا، شکر کا سرپل ڈالنا، دودھ ڈالنا، اور ہر بار سامان اور مزدوری کا ادا کرنا؛ لیکن ماڈل جانتا ہے کہ اس ہفتے آپ روزانہ ایک جیسی آدھی چینی والی نیٹو پی رہے ہیں، اس لیے وہ ایک بڑا برتن بناتا ہے اور اسے فریج میں رکھ دیتا ہے، اگلی بار ایک کپ کے لیے ایک حصہ نکال دیتا ہے۔ MiMo نے اس بار دوسرے طریقے کو اپنایا ہے — صارفین کے دہرائے جانے والے حصوں کو "فوری حساب لگانا" سے "فوری طور پر حاصل کرنا" میں تبدیل کر دیا، اس لیے اس حصے کا اصل خرچ تقریباً 0 ہے، جس کی وجہ سے 99% ڈسکاؤنٹ دینا قدرتی ہے۔

"کیش آن ڈیمانڈ" کے لیے، ٹیکنیکل بلاگ میں ستہ انجینئرنگ کا ذکر کیا گیا ہے، جن میں سے کوئی بھی کم نہیں ہو سکتا۔ آئیے اب انہیں ایک ایک کر کے دیکھتے ہیں۔

پروجیکٹ 1: ماڈل کی "یادداشت" کو 1/7 تک کم کریں

مڈل آپ کے ساتھ بات چیت کرتے وقت، ہر ٹوکن کے لیے ایک "مڈل حالت" کو محفوظ کرتا ہے تاکہ اگلے مرحلے کے لیے استعمال کیا جا سکے۔ اسے KVCache کہتے ہیں — جسے مڈل کی "مختصر مدتی یادداشت کی نوٹ بک" کے طور پر سمجھا جا سکتا ہے۔ ہر جملہ کہنے پر، مڈل اس جملے کا خلاصہ نوٹ بک میں لکھ دیتا ہے، اور اگلی بار وہ صرف نوٹس دیکھ کر آگے بڑھ جاتا ہے، آپ کے پہلے کہے گئے تمام مواد کو دوبارہ سننے کی ضرورت نہیں پڑتی۔

قدیمی ماڈل میں ہر لیئر "پوری توجہ" کرتا ہے — یعنی ہر ٹوکن مکمل مکالمے کے تمام ٹوکنز کو دیکھتا ہے، جس سے نوٹ بک ہر بار زیادہ موٹا ہوتا جاتا ہے۔ MiMo-V2.5-Pro نے اس ساخت کو تبدیل کیا ہے: 70 لیئرز میں سے 60 لیئرز صرف حالیہ 128 ٹوکنز کو دیکھتے ہیں (SWA، Sliding Window Attention)، اور صرف 10 لیئرز "آرکائیو کنٹرولر" پورے مجموعے کو دیکھتے ہیں۔

نتیجہ یہ ہے کہ KVCache کا حجم مکمل توجہ کے 1/7 تک کم ہو جاتا ہے، اور کمپیوٹیشن بھی 1/7 ہے۔

یہ لاگت کم کرنے کی پہلی بنیاد ہے۔ مثال کے طور پر، اب تک کمپنی کے ہر ملازم کو تمام میٹنگ ریکارڈز یاد رکھنے کی ضرورت تھی، جس کی وجہ سے ہر کسی کا دماغ بھر گیا اور کارکردگی کم ہو گئی۔ نئے قواعد نے 60 ملازمین کے دماغی بوجھ کو 1/7 تک کم کر دیا ہے، صرف 10 آرکائیو انتظامیہ تمام تاریخی ریکارڈز کا انتظام کر رہے ہیں — کمپنی کی کل یادداشت کی صلاحیت میں کوئی کمی نہیں آئی، لیکن کارکردگی 7 گنا بڑھ گئی۔

پروجیکٹ 2: SWA کے ذریعے بچائے گئے جگہ کو حقیقی طور پر استعمال کرنا

لپ ٹاپ کو 1/7 تک دبانا پہلا قدم ہے، لیکن "نظریہ کا 1/7" کو "عملی 1/7" میں تبدیل کرنے کے لیے ایک رکاوٹ ہے۔

سنتی KVCache سسٹم تمام لیورز کے لیے "ممکنہ زیادہ سے زیادہ استعمال" کے بنیاد پر گرافکس میموری مختص کرتا ہے۔ یعنی: چاہے 60 لیورز SWA کو صرف ایک چھوٹی نوٹ بک کی ضرورت ہو، سسٹم تمام لیورز کے لیے "آرکائیو ایڈمنسٹریٹر کی بڑی نوٹ بک" مختص کرتا ہے — SWA نے جو جگہ بچائی، وہ بے کار محفوظ رہ جاتی ہے، جیسے کہ کوئی بچت نہ ہوئی ہو۔

بڑا ماڈل

رو فولی ٹیم نے KVCache کو دو الگ الگ پولز میں تقسیم کیا۔ پورے توجہ والی 10 لیئرز "بڑے پول" کا استعمال کرتی ہیں، جو مکمل لمبائی پر تقسیم کیا جاتا ہے؛ جبکہ SWA کی 60 لیئرز "چھوٹے پول" کا استعمال کرتی ہیں، جو صرف 128 ٹوکن کے ونڈو کے مطابق تقسیم کیا جاتا ہے۔

مثال کے طور پر، اصل میں کمپنی نے ہر ملازم کو ایک "100 سال کے دستاویزات کو محفوظ کرنے کے قابل فائل کابینہ" دیا تھا — لیکن 60 ملازمین کو صرف ایک "ایک ہفتے کے دستاویزات کو محفوظ کرنے کے لیے چھوٹا کابینہ" درکار تھا، جس کی 99% جگہ خالی تھی۔ نئے طریقے میں، فائل کابینہ کو اصل ضرورت کے مطابق تقسیم کیا جاتا ہے۔ نتیجہ یہ ہوا کہ پورے دفتر میں پانچ گنا زیادہ ملازمین کام کرنے کے لیے جگہ بن گئی — ایک ہی GPU سے پانچ گنا زیادہ صارفین کو одно وقت خدمت فراہم کی جا سکتی ہے۔

یہ مرحلہ آسان لگتا ہے، لیکن اس کے بغیر، پہلے SWA اسکیم کے فوائد بے کار ہو جاتے ہیں۔

پروجیکٹ 3: "قدیم صارفین کو دوبارہ پڑھنا" کو حقیقت میں کیش میں مل جائے

نوت بک کو 1/7 پر دبایا گیا + جگہ حقیقت میں استعمال کی جا سکتی ہے، اگلے مرحلے میں ایک پرانا مسئلہ حل کرنا ہے: پریفکس کیش کی ہٹ ریٹ۔

بہت سارے صارفین کی بات چیت ایک ہی شروعات سے شروع ہوتی ہے—ایک ہی سسٹم پرامپٹ، ایک ہی کوڈ بیس، ایک ہی لمبی دستاویز۔ سسٹم ان نتائج کو محفوظ کر لیتا ہے اور اگلی بار مطابقت ہونے پر براہ راست دوبارہ استعمال کر لیتا ہے۔ اس فرائض کو پریفکس کیش کہا جاتا ہے۔

لیکن SWA موڈ میں ایک دشواری ہے: دو درخواستوں کا ٹوکن ایک جیسا ہونا، یہ ضروری نہیں کہ KV اب بھی موجود ہو۔ ممکن ہے پریفکس کا حساب لگا لیا گیا ہو، لیکن SWA ونڈو کے باہر کا حصہ پہلے ہی ختم کر دیا گیا ہو۔ اگر سسٹم "ٹوکن ایک جیسا ہے تو مطابقت" والے پرانے قاعدے کے مطابق آپ کو ریاست استعمال کرے گا، تو آپ غلط یا اووررائٹ ہو چکے ڈیٹا کو پڑھیں گے، جس سے ماڈل کا اثر فوراً ختم ہو جائے گا۔

رو فلی ٹیم نے قواعد کو "وینڈو سیفٹ لینگتھ" تک اپ گریڈ کر دیا ہے — صرف "آپ جو حصہ مکمل طور پر ادھار لے سکتے ہیں" کا وعدہ کرتے ہیں۔

ایک مثال کے طور پر، ایک لائبریری میں ایک ملین کتابیں ہیں اور آپ کو تین جلدوں پر مشتمل "ثrees-body" کی مکمل سیریز چاہیے۔ پرانے نظام آپ کو بتائے گا کہ "یہ کتاب دستیاب ہے"، لیکن جب آپ جاتے ہیں تو صرف کور اور پہلا جلد دستیاب ہوتا ہے، باقی دو جلدوں کو دوسرے نے اٹھا لیا ہے۔ اس "جھوٹی کامیابی" کی وجہ سے آپ کو بے کار گھومنا پڑتا ہے اور دوبارہ کتابیں اٹھانی پڑتی ہیں۔ نئے سسٹم کا قاعدہ یہ ہے کہ وہ صرف اس حصے کی ضمانت دیتا ہے جو آپ مکمل طور پر حاصل کر سکتے ہیں—پہلا جلد آپ کو دے دیا جاتا ہے، اور پھر باقی دو جلدیں آپ تک پہنچائی جاتی ہیں۔

لگتا ہے کہ اس سے زیادہ سخت ہو جائے گا اور مطابقت کم ہو جائے گی۔ لیکن واقعی اس کے برعکس: کیونکہ SWA نے KVCache کے سائز کو 1/7 تک کم کر دیا ہے، اسی ذخیرہ کی جگہ میں کئی گنا زیادہ مواد فٹ ہو جاتا ہے، جس سے حقیقی مطابقت میں کافی اضافہ ہوتا ہے۔

رو فولی کے بلاگ میں آن لائن ٹیسٹ ڈیٹا دیا گیا ہے: مین流 ہارنس فریم ورک کے تحت سرور کیش ہٹ ریٹ کا اوسط 93% ہے، جبکہ اعلیٰ فریکوئنسی والے لمبے دور کے صارفین کے لیے 95% سے زیادہ ہو سکتا ہے۔

95% کے "دوہرے پڑھنے" درخواستیں GPU کے بغیر براہ راست کیش سے حاصل کی جاتی ہیں۔ یہی 99% کی چھٹکارے کی فزیکل بنیاد ہے۔

انجینئرنگ چار: "کیش" کو GPU کے اندر موجود SSD میں ڈالیں

درستگی بڑھ گئی، اگلا سوال یہ ہے: یہ کیش کہاں ڈالی جاتی ہیں۔

ویڈیو میموری (GPU پر HBM میموری) مہنگی اور محدود ہوتی ہے — ایک H100 آٹھ کارڈ سسٹم میں صرف 640GB ویڈیو میموری ہوتی ہے، لیکن MiMo کو ذخیرہ کرنے کے لیے KVCache کئی دہائیوں ٹیرابائٹ کے سطح پر ہو سکتا ہے۔ اس لیے ہمیں تہہ بندی ضروری ہے: حالیہ استعمال شدہ ڈیٹا کو ویڈیو میموری (L1) پر رکھیں، تھوڑا پرانا ڈیٹا CPU میموری (L2) پر، اور سرد ڈیٹا کو ڈسٹریبیوٹڈ کیش (L3) پر۔

جیسے آپ اپنا پیسہ مینیج کرتے ہیں۔ والیٹ میں نقد رقم گرافکس میموری ہے — جب بھی ضرورت ہو استعمال کر سکتے ہیں لیکن اس میں کم ہی رکھ سکتے ہیں۔ بینک اکاؤنٹ کا بالانس سی پی یو میموری ہے — ایک بار نکالنے میں 30 سیکنڈ لگتے ہیں لیکن بہت زیادہ رکھ سکتے ہیں۔ فکسڈ ڈپازٹ L3 ڈسٹریبیوٹڈ کیش ہے — ایک بار نکالنے میں 2 منٹ لگتے ہیں لیکن بہت سستا ہے۔

صنعت کی معمولی روایت یہ ہے کہ L3 کے لیے الگ سٹوریج کلسٹر، مخصوص ماڈل اور مخصوص ڈیٹا سینٹر بنایا جائے، جس کا کرایہ ماہانہ ادا کیا جائے۔

میاو کے اسٹوریج ٹیم کا طریقہ کار الگ ہے۔ انہوں نے اپنی طرف سے ایک ڈسٹریبیوٹڈ کیش کا نظام تیار کیا جس کا نام GCache ہے، جسے براہ راست GPU مشینوں کے ساتھ آنے والے SSD پر ڈپلوی کیا گیا ہے — جو تربیت اور انفرینس کے کاموں کے ساتھ ایک ہی مشین پر مشترکہ طور پر ڈپلوی ہوتا ہے۔

بڑا ماڈل

دوسروں نے بڑی مقدار میں ڈیٹا محفوظ کرنے کے لیے ایک گودام کرایہ پر لیا؛ میائی نے پایا کہ جی پی یو مشینوں کا گارج خالی پڑا ہوا ہے، اور اس میں براہ راست ڈیٹا محفوظ کر دیا۔ ماہانہ کرایہ بچ گیا۔

اضافی ذخیرہ سازی کا خرچہ 0 ہے۔

اس بات کی تباہ کن صلاحیت ظاہری سے زیادہ ہے۔ عام "AI کمپنی کی کمپوٹیشنل کیپیٹل اکاؤنٹ" میں اسٹوریج لاگت ایک ثابت خرچ ہوتی ہے — جتنا بڑا آپ کا ماڈل ہو اور جتنا زیادہ صارفین ہوں، اسٹوریج بل اتنی ہی لمبا ہوتا ہے۔ GCache کا یہ طریقہ اس خرچ کو بالکل ختم کر دیتا ہے۔ SWA کے چھوٹے سائز اور 93-95% ہٹ ریٹ کے ساتھ ملا کر، KVCache کا L3 میں رہنے کا وقت (TTL) منٹوں سے گھنٹوں اور کبھی کبھی دنوں تک بڑھ جاتا ہے — جتنا زیادہ TTL ہوگا، اتنی ہی زیادہ تاریخی کانٹیکسٹ کی ہٹ کا ونڈو ہوگا، کیش ہٹ ریٹ بلند ہوگا، اور 99% کا ڈسکاؤنٹ زیادہ مستحکم ہوگا۔

پروجیکٹ 5: کیش میں مل جانے والے درخواستوں کو سب سے مختصر راستہ دیں

کیش کو ذخیرہ کیا جا سکتا ہے، تلاش کیا جا سکتا ہے، اور سستا بھی ہے، آخری مرحلہ یہ ہے: درست درخواستوں کو درست مشینوں پر ریوت کیسے کیا جائے۔

میاو نے اپنا ایک اپنے ہی شیڈولنگ سسٹم تیار کیا جس کا نام LLM-Router ہے، جس نے تین کام کیے:

ایک تو قریبی اسکیڈولنگ۔ جو درخواستیں ایک جیسے پریفکس رکھتی ہیں، انہیں ایک ہی ماشین پر راؤٹ کیا جاتا ہے تاکہ کیش کی دوبارہ استعمال کو زیادہ سے زیادہ کیا جا سکے۔

دوسرا، لمبائی کے بکٹس۔ مختصر درخواستوں (0-64K)، درمیانی درخواستوں (64K-256K)، اور لمبی درخواستوں (256K-1M) کو الگ الگ پروسیسنگ چینلز میں تقسیم کریں تاکہ مختصر درخواستیں لمبی درخواستوں کی وجہ سے متاثر نہ ہوں۔

تیسرا، TTFT کا بہترین بنانا۔ جب ریکسٹس کی قطار میں انتظار کیا جا رہا ہے، تو کم حسابی لوڈ والے ریکسٹس (یعنی زیادہ تر کیش میں مل جانے والے) کو ترجیح دی جائے — تاکہ وہ "مکمل نئے ان پٹ" والے، زیادہ حسابی لوڈ والے ریکسٹس کی وجہ سے روکے نہ جائیں۔

مثلاً، عام ہوائی اڈے کے شیڈولنگ میں، تمام ایک ہی مقصد کے لیے مسافر ایک ہی لاؤنج میں اکٹھے کیے جاتے ہیں، اور سامان کی تلاش کا عمل مشترکہ ہوتا ہے—یہ اینفینٹی سکیڈولنگ ہے۔ جو مسافر کیبن لگ بھگ لے کر آتے ہیں اور جو تین بڑے سامان کے ساتھ آتے ہیں، وہ دو الگ سیکورٹی چیک پوائنٹس سے گزرتے ہیں، تاکہ تیز مسافر دیر سے متاثر نہ ہوں—یہ لینگتھ بکیٹنگ ہے۔ بورڈنگ کے وقت صرف کیبن سامان والے مسافروں کو پہلے جانے دیا جاتا ہے، کیونکہ وہ جلدی بورڈ کرتے ہیں، جس سے طیارہ جلد اُڑ سکتا ہے—یہ TTFT آپٹیمائزیشن ہے۔

اس شیڈولنگ اسٹریٹیجی کے عملی ٹیسٹ نے L2 کیش ہٹ ریٹ کو 25%، ایک ہی سرور پر ان پٹ ٹھروٹل کو 30%، اور لمبی درخواستوں کی P90 لیٹنسی کو 30% بڑھا دیا۔

ایک ہی GPU زیادہ صارفین کو سروس دے سکتی ہے۔ قیمت میں کمی کا دوسرا نصف منطق یہی ہے — فی واحد کمپوٹیشنل پاور کا اثر انداز پیداوار زیادہ ہے اور فی صارف لاگت کم ہے۔

پروجیکٹ 6: ماڈل کے "ٹائپ کرنے" کو بھی تیز کریں

پہلی پانچ باتیں "پڑھنے" والے پہلو کو بہتر بنانے میں مصروف ہیں — صارفین کو تاریخی کنٹیکس دوبارہ پڑھنے کی لاگت کو تقریباً صفر تک کم کرنا۔ چھٹی بات "لکھنے" والے پہلو کو بہتر بنانا ہے — یعنی ماڈل کا اگلا ٹوکن جنریٹ کرنے کا عمل۔

روایتی ماڈل ایک بار میں صرف 1 ٹوکن پیدا کر سکتا ہے۔ MiMo اصل میں 3 لیول MTP (Multi-Token Prediction) کا سپورٹ کرتا ہے — ایک بار میں اگلے 3 ٹوکنز کا پیش گوئی کرنا، اور اگر درمیانی پیش گوئی درست ہو جائے تو درمیانی حسابات کو فوراً نظرانداز کر دیا جائے۔

ایک مثال کے طور پر، روایتی ٹائپنگ ایک حرف ایک حرف ٹائپ کرتی ہے — اگر آپ "آج کا موسم" ٹائپ کرنا چاہتے ہیں، تو آپ کو 4 بار کلید دبانی پڑتی ہیں۔ MTP میں ایک خودکار تکمیل ہوتی ہے جو آپ کے اگلے 1-2 حروف کا اندازہ لگاتی ہے — اگر وہ درست اندازہ لگاتی ہے، تو آپ کو ان دو بار دبانے کی ضرورت نہیں پڑتی۔

MiMo کا MTP ایجنٹک سیناریوز میں ٹیسٹ کیا گیا: پہلے 128 ٹوکنز کے لیے 2.3 گنا تیز، 128-256 ٹوکنز کے لیے 1.5 گنا تیز۔

اس بات کا مقصد یہ ہے کہ 99% کی چھوٹ صرف Input (Cache Hit) پر لاگو ہوتی ہے، لیکن جب مدل صارفین کو سروس فراہم کرتا ہے، تو input اور output ایک ہی درخواست کے اندر واقع ہوتے ہیں—اگر output کی لاگت کم نہیں ہوتی، تو مجموعی درخواست کی لاگت صرف آدھی کم ہوتی ہے۔ MTP output کے اس آدھے حصے کو بھی کم کرتا ہے، جس سے پورا ڈسکاؤنٹ ماڈل مکمل ہوتا ہے۔

چھ چیزوں کو ایک لاگت کم کرنے والی سلسلہ میں جوڑیں:

SWA آرکیٹیکچر → KVCache 1/7 → دو پولز سے حقیقی کیپسیٹی ریلیز → ایک ہی GPU پر 5+ گنا کنکرنسی ہوسکتی ہے → پریفکس کیش ہٹ ریٹ 93-95% → 95% درخواستوں کو تقریباً کلکولیٹ نہیں کرنا پڑتا → GCache سے اسٹوریج لاگت صفر ہو جاتی ہے → اسکیڈولنگ کیش ہٹ درخواستوں کو ترجیح دی جاتی ہے → MTP سے جنریشن بھی بچت ہوتی ہے → فی درخواست GPU وقت ایک درجہ بڑھ جاتا ہے → فی لاگت میں 95%+ کمی → قیمت 99% کم، لیکن مارجن اب بھی مثبت۔

کسی بھی ایک لنک کی کمی سے یہ زنجیر کسی ایک جگہ پر ٹوٹ جاتی ہے۔ 99% کی کمی ایک مارکیٹنگ نمبر نہیں ہے، بلکہ چھ انجینئرنگ بنیادوں کے叠加 اور حقیقی آن لائن تصدیق کے بعد کا جمع اثر ہے۔

پچھلے دور میں صنعت کی مختلف تشریحات میں سے ہر ایک کے پاس کچھ نہ کچھ سچائی تھی۔ پچھلے دو سالوں میں چین کی بڑی ماڈل کمپنیوں کے درمیان قیمت کی جنگ سچی تھی؛ میزو کا منافع آدھا ہو گیا اور اب بھی AI میں سرمایہ کاری کر رہا ہے، یہ سچ ہے؛ ڈیپ سیک نے صنعت کی قیمت کو زمین تک کھینچ لیا، یہ بھی سچ ہے۔

لیکن روفلی نے اس بار اپنا ٹیکنیکل بلاگ جاری کیا اور تفصیلی ٹیکنیکل تفصیلات کو واضح کیا، جس سے قیمت کی جنگ کے دعووں کا جواب دینے کا ارادہ ظاہر ہوتا ہے، تاکہ "ٹیکنیکل مسائل ٹیکنیکل رہیں اور مارکیٹنگ کے مسائل مارکیٹنگ رہیں۔"

وہ اپنے بلاگ میں لکھتی ہیں کہ MiMo-V2.5 سیریز ماڈلز کی انفریڈنٹ ایفیشنسی کسی ایک مرحلے کے ایک نقطہ کی کامیابی کا نتیجہ نہیں ہے، بلکہ متعدد ابعاد کے مسلسل بہتری کا نتیجہ ہے۔ Hybrid SWA پر فل اور ڈیکوڈ دونوں کو فائدہ ہوتا ہے، لیکن بھلے ہی KVCache کا اجراء بہتر نہ ہو تو یہ تمام مراحل میں لاگت بڑھا دے گا۔ اس مقصد کے حصول کے لیے، MiMo ٹیم نے KVCache کے انتظام، گریدڈ کیش، اور پریفکس کیش درخت کو نظام مند انداز میں دوبارہ تعمیر کیا، SWA KVCache کے بنیادی مسائل حل کیے، اسکیڈولنگ حکمت عملی اور Prefill / Decode لینک کو بہتر بنایا، اور آن لائن حقیقی سیناریوز میں اس کا جائزہ لیا، جس سے نظریاتی ایفیشنسی کے فائدے کو عملی ماحول میں حقیقی شکل دینے میں کامیاب ہوئے۔ اب، Hybrid SWA لمبے متن کے استدلال میں طاقت اور ایفیشنسی دونوں کے ساتھ اپنے آرکٹیکچرل فائدے کو پورا کرتا ہے۔ MoE کانفگریشن اور متعدد ماڈل انفرینس کے مختلف بہتریوں کو ملا کر، آن لائن انفرینس سروسز کی صلاحیت میں بڑا اضافہ ہوا۔

یہ ایک نظام یافتہ AI انجینئرنگ کا طریقہ کار ہے، جو صنعت کے لیے لاگت کم کرنے کا قابلِ تقلید ذریعہ ہے۔

قیمت کی جنگ کے لیے بلاگ لکھنے کی ضرورت نہیں، صرف انجینئرنگ کی تحقق کے لیے ضروری ہے۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔