تُقترح ميتا MobileMoE، وتحقق تسريعًا بنسبة 3.8 ضعف على iPhone 16 Pro

في السنوات الأخيرة، تم استخدام نماذج الخبراء المختلطة (MoE) على نطاق واسع في النماذج الكبيرة السحابية. لكن على الأجهزة المحمولة، لا تزال نماذج اللغة الكبيرة (LLM) تعتمد بشكل رئيسي على البنية الكثيفة. في الماضي، كانت قيود الأجهزة المحمولة على الذاكرة والقدرة الحسابية والتأخير أكثر صرامة، ولم تكن هناك دراسات منهجية على MoE على الجانب الطرفي ضمن نطاق معلمات نشطة أقل من مليار. اليوم، مع تحسن سعة DRAM في الأجهزة المحمولة، بدأت MoE تكتسب فرصة للنشر على الهواتف الذكية.

قدم فريق ميتا MobileMoE، وهو أول نموذج MoE يحقق استدلالًا فعالًا على الهواتف الذكية التجارية. أظهرت النتائج أنه في 14 اختبارًا أساسيًا، حقق MobileMoE-S/M دقة متوسطة مماثلة أو أعلى من النموذج الكثيف الأساسي، باستخدام فقط نصف إلى ربع كمية الحسابات اللازمة للاستدلال، مع استهلاك ذاكرة مشابه. وفي الاختبارات العملية، كان التسارع الأكبر لـ MobileMoE-S على iPhone 16 Pro مع خلفية GPU/MLX، حيث بلغ أقصى تسريع في مرحلة الإدخال 3.8 مرة.

ميتا

رابط الورقة البحثية: https://arxiv.org/abs/2605.27358

اقترح فريق البحث أيضًا مجموعة من قوانين التوسع MoE على الحافة لتحديد هياكل النماذج الأكثر ملاءمة للنشر على الهواتف. وقد أنشأ MobileMoE حدًا باريتو جديدًا للنماذج اللغوية الكبيرة على الحافة، وحقق نتائج أفضل في التوازن بين الدقة وتكلفة الحساب أثناء الاستدلال.

ميتا

الصورة | MobileMoE يُنشئ حدًا جديدًا لباريتو لنماذج اللغة الكبيرة على الحافة.

كيف تم تصميم MobileMoE؟

يمكن فهم MobileMoE على النحو التالي: إنها نوع من نماذج لغة MoE المصممة للنشر على الأجهزة الطرفية. إنها لا تزال تعتمد على بنية Transformer ذات المُفكِّك فقط، لكنها تستبدل طبقة التغذية الأمامية الكثيفة الأصلية بطبقة MoE. يقوم المُوجِّه باختيار عدد قليل من الخبراء ذوي أعلى درجات لكل رمز للمشاركة في الحساب، مع وجود خبير مشترك يشارك دائمًا. تتألف عملية التدريب بأكملها من أربع خطوات: التدريب المسبق، التدريب المتوسط، الدقة الإشرافية، وتدريب الإدراك الكمي.

التدريب المسبق: قام فريق البحث بتدريب مسبق باستخدام حوالي 6 تريليونات من الرموز على طول سياق 2048، مع بيانات مرخصة مفتوحة تتركز أساسًا على الويب، وتغطي أيضًا مجالات مثل الرياضيات والبرمجة والمعرفة والعلوم.

التدريب المتوسط المدى: قام فريق البحث بتوسيع طول السياق إلى 8192 وزيادة نسبة البيانات عالية الجودة مثل المعرفة، والبرمجة، والرياضيات، والعلوم، مع حجم إجمالي يقارب 500B رمز.

الضبط الدقيق الخاضع للإشراف (SFT): قام فريق البحث بضبط دقيق لـ MobileMoE-Base على مجموعة بيانات تضم أكثر من 80 مليون عينة من تعليمات مفتوحة الترخيص.

تدريب مستوحى من الكمية: قام فريق البحث بكمية طبقات الخطية ووضع التضمين إلى INT4، وكمية الديناميكية للتفعيل إلى INT8، مع الاحتفاظ بدقة FP32 للـ router.

ميتا

الرسم التوضيحي | المرحلة الأربعية لتدريب MobileMoE.

نتائج التجربة

نتائج تجربة الإزالة

قارن فريق البحث أولاً بين ثلاثة متغيرات هندسية: عدد الخبراء E، ودقة الخبراء g، وما إذا كان يتم إضافة خبراء مشتركين أم لا.

ميتا

الرسم التوضيحي | مقياس عدد الخبراء E.

تحت ميزانية ذاكرة ثابتة، يبدأ فقدان MoE في الانخفاض عن النموذج الكثيف المقابل عندما تتجاوز الذاكرة حوالي 0.25 جيجابايت. مع الاستمرار في زيادة عدد الخبراء E، ينخفض الفقد进一步، لكن العائد الحدي يضعف بوضوح عندما يصل E إلى 8. تُظهر تجارب حجم خبراء g أن تكوين الخبراء الدقيق أكثر فعالية بشكل عام، حيث يحقق g=8 توازنًا جيدًا بين الأداء وتكلفة التدريب؛ عندما يزداد g من 8 إلى 16، لا يتحسن الفقد بأكثر من 0.01، لكن وقت التدريب يزداد بنسبة حوالي 50%. تحت نفس ميزانية الحساب، ينخفض فقدان النموذج進一步 بعد إضافة الخبراء المشتركة.

بناءً على نتائج تجارب الإزالة، اعتمد فريق البحث في النهاية التكوين التالي: E=8، g=8، مع خبراء مشتركين، أي 60 خبيرًا للترشيح الدقيق، وترشيح Top-4 وخبير مشترك واحد، واستُخدم هذا الهيكل في الإصدارات الثلاثة MobileMoE-S/M/L.

ميتا

الرسم التوضيحي｜ توسعة نماذج MoE تحت الظروف المثلى.

ميتا

الرسم التوضيحي | كفاءة تدريب بنية MoE.

14 تقييمًا أساسيًا: إنشاء حدود باريتو الجديدة على الحافة

أعاد فريق البحث تقييم MobileMoE مع نماذج مثل Gemma 3 و SmolLM2 و Qwen3.5 و OLMo 2 و OLMoE-1B-7B في إعداد موحد عبر 14 تقييمًا أساسيًا في خمس فئات: الاستدلال العام، المعرفة، العلوم، القراءة، والاستدلال.

ميتا

الرسم البياني | مسار التدريب المسبق لـ MobileMoE.

أظهرت نتائج مقارنة النموذج الأساسي أن MobileMoE-M حصل على متوسط درجة أعلى من Qwen3.5 2B، وMobileMoE-L حصل على متوسط درجة أعلى من OLMoE-1B-7B، مع حجم نموذج مطلوب أصغر أيضًا؛ كما أشار فريق البحث إلى أن النسخة الأساسية من MobileMoE-L تحقق بالفعل متوسط درجة أعلى من النسخة Instruct لـ OLMoE-1B-7B. من حيث حجم التدريب، يستخدم MobileMoE حوالي 6T من رموز التدريب المسبق، وهو أقل من 9T الخاصة بـ Llama 3.2 1B و11T الخاصة بـ SmolLM2 1.7B. في المقارنة الشاملة لنماذج الدقة المُعدّلة بالتعليمات، فإن دقة MobileMoE-M المتوسطة تقترب بالفعل من دقة OLMoE-1B-7B، مع كون عدد المعلمات النشطة والمجموع أقل بنسبة 60% تقريبًا.

ميتا

الرسم التوضيحي | مقارنة نموذج MobileMoE-Base.

مراجعة متقدمة: المزايا في مهام البرمجة والرياضيات أكثر وضوحًا

في التقييم المتقدم بعد الدقة بالإرشادات، يظهر MobileMoE أداءً أقوى في مهام البرمجة والرياضيات. على سبيل المثال، يحقق MobileMoE-L متوسط درجات أعلى من Qwen3.5 2B وOLMoE-1B-7B في كلا تقييمي البرمجة والرياضيات. ومع ذلك، أشار فريق البحث إلى أن Qwen3.5 2B لا يزال أقوى في قدرتي اتباع التعليمات والاستدلال المعرفي.

ميتا

الرسم البياني | مقارنة نماذج Instruct على اختبارات مرجعية متقدمة.

الكمية والنشر على الحافة: الحفاظ على التنافسية بعد استخدام INT4، مع تسريع ملحوظ على الهواتف

بعد التكميم، انخفض متوسط الدرجة الإجمالي لـ MobileMoE-S/M/L مقارنة بإصدارات BF16 الخاصة بها، لكن الانخفاض كان تقريبًا بين درجتين وثلاث درجات. وعلى الرغم من ذلك، لا يزال أداء إصدار INT4 لـ MobileMoE-L أعلى من إصدار BF16 لـ OLMoE-1B-7B Instruct.

كما قام فريق البحث بتطبيق MobileMoE على Samsung Galaxy S25 وiPhone 16 Pro للاختبار. أظهرت النتائج أنه في ظل ظروف ذاكرة أوزان INT4 المماثلة، فإن MobileMoE-S يسرّع مرحلة الإدخال بنسبة 1.8-3.8 مرة مقارنة بـ MobileLLM-Pro، ومرحلת توليد الرمز تلو الآخر بنسبة 2.2-3.4 مرة.

من حيث استخدام الذاكرة، بلغ ذروة RSS لـ MobileMoE-S تحت ظروف Samsung Galaxy S25 وسياق 8K ومحفّز حقيقي 1.49 جيجابايت، وهو أقل من 1.91 جيجابايت لـ MobileLLM-Pro.

ميتا

الرسم البياني | تأخير وقت التشغيل على الحافة.

النقاط الناقصة والاتجاهات المستقبلية

حاليًا، لا يزال MobileMoE المُعدّ بالضبط متخلفًا عن Qwen3.5 2B من حيث اتباع الأوامر المتقدمة وقدرات المعرفة والاستدلال. يعتقد فريق البحث أن هذه الفجوة قد تكون مرتبطة بتدريب لاحق أكثر تطورًا. في المستقبل، لضياع هذه الفجوة، سيتعين على جانب التدريب تعزيز التقطير، والتدريب اللحقي الموجه نحو الاستدلال، والتوسيع متعدد الوسائط.

بالإضافة إلى ذلك، أشار فريق البحث إلى أن استهلاك ذاكرة MoE على الهواتف يتغير حسب محتوى الإدخال. مقارنةً بالإدخال القائم على قوالب ثابتة، فإن الإدخالات الحقيقية عادةً ما تؤدي إلى استهلاك ذاكرة أعلى. إذا تم اختبار MoE بناءً على إدخالات قوالب فقط، فقد يتم التقليل من تقدير ضغط الذاكرة في سيناريوهات النشر الفعلية. في المستقبل، لتقديم تقييم أكثر دقة لأداء ذاكرة MoE على الأجهزة الطرفية، لا يزال من الضروري الاعتماد على مزيد من البيانات التجريبية الحقيقية.

في الوقت نفسه، أكمل فريق البحث اختبارات منهجية على أجهزة فعلية على خلفيات CPU وGPU، لكن مسار NPU لا يزال بحاجة إلى الاستكشاف. في الوقت نفسه، فإن استهلاك الذاكرة في وقت التشغيل لـ MoE حساس تجاه محتوى الإدخال. في المستقبل، ستكون التوجيه الديناميكي، وقص الخبراء، والكمية الدقيقة المختلطة، ونشر NPU على الأجهزة المحمولة، جميعها اتجاهات مستقبلية لتحسين كفاءة الجانب الطرفي.

لمزيد من التفاصيل التقنية، راجع الورقة الأصلية.

هذا المقال من حساب ويشات الرسمي "أكاديميا توت" (ID: SciTouTiao)، الكاتب: شيا تشيانسي