میٹا نے موبائل مو ای کی تجویز کی، آئی فون 16 پرو پر 3.8 گنا تیزی حاصل کی

پچھلے کچھ سالوں میں، مکسچر آف ایکسپرٹس ماڈلز (MoE) کو بادل پر بڑے ماڈلز کے لیے وسیع پیمانے پر استعمال کیا گیا ہے۔ لیکن موبائل ڈیوائسز پر، بڑے زبانی ماڈلز (LLM) اب بھی گھنے ارکان کے ساتھ ہیں۔ گزشتہ، موبائل ڈیوائسز کی میموری، کمپوٹیشنل طاقت اور تاخیر کی پابندیاں زیادہ سخت تھیں، اور ایک ارب سے کم فعال پیرامیٹرز کے دائرے میں اینڈ-ڈیوائس MoE کا نظام کی بنیاد پر مطالعہ نہیں ہوا تھا۔ آج، جبکہ موبائل ڈیوائسز کی DRAM کی صلاحیت بڑھ رہی ہے، MoE کو بھی اسمارٹ فونز پر ڈپلوئ کرنے کا موقع مل رہا ہے۔

میٹا ٹیم نے MobileMoE کا تصور پیش کیا، جو پہلی بار کامرسی سمارٹ فون پر موثر MoE انفرنس کو ممکن بناتا ہے۔ نتائج نے دکھایا کہ 14 بنیادی ٹیسٹس میں، MobileMoE-S/M، تقریباً اتنے ہی میموری کے استعمال کے ساتھ، ڈینسی بیس لائن کے 1/2 سے 1/4 تک کم انفرنس کمپوٹیشن کے ساتھ، مساوی یا زیادہ اوسط درستگی حاصل کرتا ہے۔ عملی ٹیسٹنگ میں، MobileMoE-S کا iPhone 16 Pro کے GPU/MLX بیکنڈ پر سب سے زیادہ تیز ترین تیزی دکھائی دی، جہاں ان پٹ مرحلے میں زیادہ سے زیادہ 3.8 گنا تیزی آئی۔

میٹا

کاغذ کا لنک: https://arxiv.org/abs/2605.27358

تحقیقی ٹیم نے ایک سرے کے MoE سکیلنگ قوانین بھی پیش کیے ہیں جو فون پر ڈپلوی کے لیے زیادہ مناسب ماڈل آرکیٹیکچر کا تعین کرتے ہیں۔ MobileMoE نے سرے کے بڑے زبانی ماڈلز کے لیے ایک نیا پیریٹو فرنٹیئر قائم کیا ہے، جس میں درستگی اور انفرینس کمپوٹیشنل لاگت کے درمیان بہتر توازن حاصل کیا گیا ہے۔

میٹا

تصویر | MobileMoE نے ایند سائیڈ لارج لینگویج مدلز کے لیے نیا پیریٹو فرینٹ قائم کیا ہے۔

موبائلMoE کو کیسے ڈیزائن کیا گیا ہے؟

موبائل MoE کو اس طرح سمجھا جا سکتا ہے: یہ ایک قسم کا MoE زبانی ماڈل ہے جو اندرونی ڈیوائس پر ڈیپلومنٹ کے لیے ڈیزائن کیا گیا ہے۔ مجموعی طور پر یہ ابھی بھی decoder-only Transformer ہے، لیکن اصل ڈینس فیڈ فارورڈ لیئرز کو MoE لیئرز سے تبدیل کر دیا گیا ہے۔ روتر ہر ٹوکن کے لیے صرف اعلی اسکور والے کچھ ماہرین کو کمپوٹیشن میں شرکت کے لیے منتخب کرتا ہے، جبکہ ایک مشترکہ ماہر ہمیشہ شرکت کرتا رہتا ہے۔ پورا تربیتی عمل چار مراحل پر مشتمل ہے: پری ٹریننگ، میڈیم ٹریننگ، سپروائزڈ فائن ٹیوننگ اور کوانتائزیشن ایوریس ٹریننگ۔

پیش تربیت: تحقیقی ٹیم نے 2048 کے حوالہ طول پر، تقریباً 6 ٹرین ٹوکن کے کھلے لائسنس ڈیٹا کا استعمال کرتے ہوئے پیش تربیت کی، جس میں ڈیٹا کا بیشتر حصہ ویب پر مشتمل ہے اور ریاضی، کوڈ، علم اور سائنس سمیت دیگر شعبوں کو بھی شامل کیا گیا ہے۔

میڈیم ٹریننگ: ریسرچ ٹیم نے کنٹیکسٹ لمبائی کو 8192 تک وسعت دی اور معیاری ڈیٹا جیسے علم، کوڈ، ریاضی اور سائنس کا تناسب مزید بڑھایا، جس کا کل سائز تقریباً 500B ٹوکن ہے۔

supervised fine-tuning (SFT): ریسرچ ٹیم نے MobileMoE-Base کو 80 ملین سے زائد نمونوں پر مشتمل اوپن لائسنس ہدایات فائن ٹیوننگ ڈیٹا پر فائن ٹیون کیا۔

کوانتائزیشن ایوانڈ ٹریننگ: ریسرچ ٹیم نے لینیئر لیئرز اور ایمبیڈنگ کو INT4 پر کوانتائز کیا، ایکٹیویشنز کو INT8 پر ڈائنامک کوانتائز کیا، اور روتر کو FP32 پر برقرار رکھا۔

میٹا

تصویر | MobileMoE کا چار مراحل کا تربیتی عمل۔

تجربی نتائج

ابلاسیشن تجربے کے نتائج

تحقیقی ٹیم نے تین ارکان کے متغیرات کا موازنہ کیا: ماہرین کی تعداد E، ماہرین کی دانہ بندی g، اور شیئرڈ ماہرین شامل کرنا یا نہ کرنا۔

میٹا

تصویر | ماہرین کی تعداد E کا سکیل۔

جب میموری کا بجٹ ثابت رکھا جائے اور میموری 0.25GB سے زیادہ ہو جائے، تو MoE کا نقصان متعلقہ ڈینس ماڈل سے کم ہونا شروع ہو جاتا ہے۔ جب ماڈل کے ماہرین کی تعداد E کو مزید بڑھایا جاتا ہے، تو نقصان مزید کم ہوتا ہے، لیکن جب E 8 تک پہنچ جاتا ہے، تو حاصل ہونے والا فائدہ واضح طور پر کم ہو جاتا ہے۔ ماہرین کی دانہ بندی g پر تجربات سے پتہ چلتا ہے کہ زیادہ دانہ بند شدہ ماہرین کی ترتیب کل میں بہتر ہوتی ہے، جہاں g=8 اثر اور تربیت کے اخراجات کے درمیان بہترین توازن فراہم کرتی ہے؛ جب g کو 8 سے 16 تک بڑھایا جاتا ہے، تو نقصان میں 0.01 سے کم بہتری آتی ہے، لیکن تربیت کا وقت تقریباً 50% بڑھ جاتا ہے۔ ایکسیل کے ایکسانیٹ کے ساتھ، شیئرڈ ماہرین شامل کرنے سے ماڈل کا نقصان مزید کم ہوتا ہے۔

مُستَنِدًا على نتائج تجربة الإزالة، اتخذ فريق البحث في النهاية تكوينًا مع E=8، g=8، وخبراء مشتركين، أي 60 خبيرًا للتصنيف الدقيق، ومسار Top-4، وخبراء مشتركين واحد، واستخدم هذا الهيكل في الإصدارات الثلاثة MobileMoE-S/M/L.

میٹا

تصویر | MoE ماڈل کو بہترین حالت میں سکیل کرنا۔

میٹا

تصویر | MoE آرکیٹیکچر کی تربیت کی کارکردگی۔

14 بنیادی جائزے: نیا اینڈ-سائیڈ پیریٹو فرینٹ تعمیر کریں

تحقیقی ٹیم نے موبائل مو ای کو جیما 3، اسمول ایل ایم 2، کوئن 3.5، او لمو 2، اور او لمو ای-1 بی-7 بی جیسے ماڈلز کے ساتھ عام منطق، علم، سائنس، پڑھنا اور استدلال کے پانچ کیٹیگریز میں کل 14 بنیادی ٹیسٹس میں ایک یکساں سیٹنگ میں دوبارہ جانچا۔

میٹا

تصویر | MobileMoE کی پری ٹریننگ ٹریجکٹری۔

بیس ماڈل کے مقابلے کے نتائج ظاہر کرتے ہیں کہ MobileMoE-M کا اوسط اسکور Qwen3.5 2B سے زیادہ ہے، اور MobileMoE-L کا اوسط اسکور OLMoE-1B-7B سے زیادہ ہے، جبکہ درکار ماڈل کا سائز بھی چھوٹا ہے؛ تحقیقی ٹیم نے مزید بتایا کہ MobileMoE-L کا بیس ورژن اوسط اسکور OLMoE-1B-7B کے انستراکٹ ورژن سے بھی زیادہ ہے۔ تربیت کے سائز کے حوالے سے، MobileMoE تقریباً 6 ٹرین ڈ پری ٹرینڈ ٹوکن استعمال کرتا ہے، جو Llama 3.2 1B کے 9 ٹرین ڈ اور SmolLM2 1.7B کے 11 ٹرین ڈ سے کم ہے۔ انستراکٹ فائن ٹیونڈ ماڈلز کے مجموعی مقابلے میں، MobileMoE-M کی اوسط درستگی OLMoE-1B-7B کے قریب پہنچ چکی ہے، لیکن فعال پیرامیٹرز اور کل پیرامیٹرز دونوں تقریباً 60% کم ہیں۔

میٹا

تصویر | موبائل MoE-Base ماڈل کا موازنہ۔

اہم جائزہ: کوڈ اور ریاضی کے کاموں میں فرق زیادہ واضح ہے

ہدایات کے فائن ٹیوننگ کے بعد کے جائزے میں، MobileMoE کوڈ اور ریاضی کے کاموں میں زیادہ بہتر کارکردگی دکھاتا ہے۔ MobileMoE-L کے ساتھ، یہ کوڈ اور ریاضی دونوں جائزے میں Qwen3.5 2B اور OLMoE-1B-7B سے زیادہ اوسط اسکور حاصل کرتا ہے۔ تاہم، تحقیقی ٹیم نے بھی اشارہ کیا ہے کہ ہدایات کی پابندی اور علمی استدلال کی دو صلاحیتوں میں، Qwen3.5 2B اب بھی زیادہ مضبوط ہے۔

میٹا

تصویر: اعلیٰ بنچ مارک پر انستراکٹ ماڈلز کا موازنہ۔

کوانٹائزیشن اور اینڈ ڈیوائس ڈیپلومنٹ: INT4 کے بعد بھی مقابلہ کرنے کی صلاحیت برقرار، موبائل ڈیوائس پر واضح تیزی

کوانتائزیشن کے بعد، MobileMoE-S/M/L کے کل اوسط اسکورز اپنے BF16 ورژنز کے مقابلے میں کم ہو گئے، لیکن یہ کمی تقریباً 2 سے 3 اسکور کے درمیان رہی۔ تاہم، MobileMoE-L کا INT4 ورژن OLMoE-1B-7B Instruct کے BF16 ورژن سے زیادہ بہتر کارکردگی دکھاتا ہے۔

تحقیقی ٹیم نے MobileMoE کو Samsung Galaxy S25 اور iPhone 16 Pro پر ٹیسٹ کے لیے ڈیپلوی کیا۔ نتائج نے ظاہر کیا کہ قابلِ موازنہ INT4 وزن میموری کے تحت، MobileMoE-S، MobileLLM-Pro کے مقابلے میں ان پٹ مرحلے میں 1.8-3.8 گنا اور ٹوکن کے لحاظ سے جنریشن مرحلے میں 2.2-3.4 گنا تیز ہے۔

میموری استعمال کے لحاظ سے، Samsung Galaxy S25، 8K کنٹیکس اور ریل پرامپٹ کی شرائط میں، MobileMoE-S کا پیک RSS 1.49GB ہے، جو MobileLLM-Pro کے 1.91GB سے کم ہے۔

میٹا

تصویر | کنارہ کے وقت کی تاخیر۔

کمی اور مستقبل کی سمت

ابھی، اعلیٰ سطح کے ہدایات کی پیروی، علم اور استدلال کے معاملات میں، ہدایات کے مطابق تربیت یافتہ MobileMoE، Qwen3.5 2B کے مقابلے میں پیچھے ہے۔ تحقیقی ٹیم کا خیال ہے کہ یہ فرق زیادہ بہتر پوسٹ ٹریننگ سے متعلق ہو سکتا ہے۔ مستقبل میں، اس فرق کو کم کرنے کے لیے، تربیت کے پہلو کو ڈسٹلیشن، استدلال کے لیے موزوں پوسٹ ٹریننگ، اور متعدد ماڈلز کی توسیع پر زور دینا ہوگا۔

علاوہ ازیں، تحقیقی ٹیم نے اشارہ کیا کہ موبائل فون پر MoE کا میموری استعمال ان پٹ مواد کے ساتھ تبدیل ہوتا ہے۔ مخصوص ٹیمپلیٹ ان پٹ کے مقابلے میں، حقیقی ان پٹ عام طور پر زیادہ میموری استعمال کرتا ہے۔ اگر صرف ٹیمپلیٹائزڈ ان پٹ کے بنیاد پر ٹیسٹ کیا جائے، تو اصل ڈپلوائمنٹ سیناریوز میں میموری کے دباؤ کو کم اندازہ لگایا جا سکتا ہے۔ مستقبل میں، اگر اندروائڈ MoE کی حقیقی میموری کارکردگی کا زیادہ درست جائزہ لینا ہو، تو مزید حقیقی ٹیسٹ ڈیٹا کی ضرورت ہوگی۔

اسی دوران، تحقیقی ٹیم نے CPU اور GPU بیکنڈ پر نظام کے جانچنے کا نظاماتی طریقہ مکمل کر لیا ہے، لیکن NPU راستہ ابھی تک دریافت کیا جانا ہے۔ اسی ساتھ، MoE کا رن ٹائم میموری استعمال ان پٹ مواد کے حوالے سے حساس ہے۔ مستقبل میں، ڈائنامک راؤٹنگ، اسپیشلسٹ پراننگ، مکسڈ پریسیژن کوانتائزیشن اور موبائل ڈیوائس NPU ڈپلومنٹ، سرور پر کارکردگی بڑھانے کے بعد کے راستے ہیں۔

مزید تکنیکی تفصیلات کے لیے اصل مقالے کو دیکھیں۔

یہ مضمون ویچن گروپ "اکیڈمک ٹوٹ" (ID: SciTouTiao) سے ہے، مصنف: شیا کینس