मेटा ने मोबाइलMoE का प्रस्ताव रखा, जिससे iPhone 16 Pro पर 3.8x तेजी आई

पिछले कुछ वर्षों में, मिक्स्चर ऑफ एक्सपर्ट्स (MoE) मॉडल्स का उपयोग क्लाउड-आधारित बड़े मॉडल्स में व्यापक रूप से किया गया है। हालाँकि, मोबाइल डिवाइस पर, बड़े भाषा मॉडल्स (LLM) अभी भी सघन आर्किटेक्चर पर केंद्रित हैं। पिछले समय में, मोबाइल डिवाइस के लिए मेमोरी, कैलकुलेशन शक्ति और लेटेंसी के प्रतिबंध अधिक कठोर थे, और अरब से कम सक्रिय पैरामीटर के स्तर पर एंड-पॉइंट MoE के लिए कोई प्रणालीगत अध्ययन नहीं हुआ था। आज, मोबाइल डिवाइस की DRAM क्षमता में वृद्धि के साथ, MoE को स्मार्टफोन पर डिप्लॉय करने का अवसर भी उत्पन्न हुआ है।

मेटा टीम द्वारा प्रस्तावित MobileMoE ने पहली बार वाणिज्यिक स्मार्टफोन पर कुशल MoE निष्पादन संभव बनाया। परिणामों के अनुसार, 14 बेसलाइन परीक्षणों में, MobileMoE-S/M ने समान स्मृति के साथ, घने आधार की तुलना में केवल 1/2 से 1/4 निष्पादन गणना का उपयोग करके समान या अधिक औसत सटीकता प्राप्त की। प्रयोगात्मक रूप से, iPhone 16 Pro के GPU/MLX बैकएंड पर MobileMoE-S की इनपुट चरण में गति में सबसे अधिक 3.8 गुना की वृद्धि हुई।

मेटा

पेपर का लिंक: https://arxiv.org/abs/2605.27358

अनुसंधान टीम ने एक एंड-प्वाइंट MoE स्केलिंग नियम भी प्रस्तावित किया है, जिसका उपयोग मोबाइल पर डिप्लॉय के लिए अधिक उपयुक्त मॉडल आर्किटेक्चर निर्धारित करने के लिए किया जाता है। MobileMoE ने एंड-प्वाइंट बड़े भाषा मॉडल के लिए एक नया पैरेटो फ्रंटियर स्थापित किया है, जो सटीकता और निष्पादन की गणना लागत के बीच संतुलन में बेहतर परिणाम प्राप्त करता है।

मेटा

चित्र | MobileMoE ने एंड-साइड लार्ज लैंग्वेज मॉडल के लिए एक नया पैरेटो फ्रंटियर स्थापित किया है।

MobileMoE को कैसे डिज़ाइन किया गया है?

MobileMoE को इस प्रकार समझा जा सकता है: यह एक ऐसा MoE भाषा मॉडल है जिसे एंड-साइड डिप्लॉयमेंट के लिए डिज़ाइन किया गया है। पूरा मॉडल अभी भी decoder-only Transformer है, लेकिन मूल सघन फीडफॉरवर्ड लेयर को MoE लेयर से बदल दिया गया है। राउटर प्रत्येक टोकन के लिए सबसे अधिक स्कोर वाले कुछ एक्सपर्ट्स को चुनता है जो गणना में भाग लेंगे, जबकि एक साझा एक्सपर्ट हमेशा गणना में शामिल होता है। पूरी प्रशिक्षण प्रक्रिया चार चरणों में विभाजित है: प्री-ट्रेनिंग, मीडियम-ट्रेनिंग, सुपरवाइज्ड फाइन-ट्यूनिंग और क्वांटाइजेशन-अवेयर ट्रेनिंग।

प्री-ट्रेनिंग: अनुसंधान टीम ने लगभग 6T टोकन के ओपन लाइसेंस डेटा का उपयोग करके 2048 के कॉन्टेक्स्ट लंबाई पर प्री-ट्रेनिंग की, जिसमें डेटा मुख्य रूप से वेब पर केंद्रित है और गणित, कोड, ज्ञान और विज्ञान जैसे क्षेत्रों को भी कवर करता है।

मध्यम अवधि का प्रशिक्षण: अनुसंधान टीम ने संदर्भ लंबाई को 8192 तक बढ़ाया और उच्च गुणवत्ता वाले डेटा, जैसे ज्ञान, कोड, गणित और विज्ञान, का अनुपात और बढ़ाया, जिसका कुल आकार लगभग 500B टोकन है।

सुपरवाइज्ड फाइन-ट्यूनिंग (SFT): अनुसंधान टीम ने मोबाइलMoE-बेस को 80 मिलियन से अधिक नमूनों के ओपन लाइसेंस इंस्ट्रक्शन फाइन-ट्यूनिंग डेटा पर फाइन-ट्यून किया।

क्वांटाइज्ड अवगत प्रशिक्षण: अनुसंधान टीम ने रैखिक परतों और एम्बेडिंग को INT4 पर क्वांटाइज़ किया, सक्रियता को INT8 पर डायनामिक क्वांटाइज़ किया, और रूटर को FP32 सटीकता में बनाए रखा।

मेटा

चित्र｜MobileMoE का चार चरणों वाला प्रशिक्षण।

परीक्षण परिणाम

Ablation study results

अनुसंधान टीम ने तीन आर्किटेक्चर वेरिएबल्स की तुलना की: एक्सपर्ट्स की संख्या E, एक्सपर्ट ग्रेन्युलैरिटी g, और साझा एक्सपर्ट्स शामिल करना या न करना।

मेटा

चित्र | विशेषज्ञ संख्या E का स्केलिंग।

एक निश्चित मेमोरी बजट के तहत, जब मेमोरी 0.25 जीबी से अधिक होती है, तो MoE का नुकसान संबंधित घने मॉडल से कम होना शुरू हो जाता है। विशेषज्ञों की संख्या E को बढ़ाते रहने पर, नुकसान आगे घटता रहता है, लेकिन E 8 तक पहुँचने के बाद, सीमांत लाभ स्पष्ट रूप से कम हो जाता है। विशेषज्ञ ग्रेन्युलैरिटी g पर प्रयोगों से पता चलता है कि अधिक सूक्ष्म विशेषज्ञ कॉन्फ़िगरेशन समग्र रूप से बेहतर होता है, जहाँ g=8 प्रभाव और प्रशिक्षण लागत के बीच एक अच्छा संतुलन प्रदान करता है; g को 8 से 16 तक बढ़ाने पर, नुकसान में 0.01 से कम का सुधार होता है, लेकिन प्रशिक्षण समय में लगभग 50% की वृद्धि होती है। समान कैलकुलेशन बजट के साथ, साझा विशेषज्ञों को जोड़ने से मॉडल का नुकसान आगे घटता है।

उपशमन प्रयोगों के परिणामों के आधार पर, अनुसंधान टीम ने अंततः E=8, g=8, साझा विशेषज्ञ के साथ कॉन्फ़िगरेशन को अपनाया, अर्थात 60 फाइन-ग्रेन्ड रूटिंग विशेषज्ञ, टॉप-4 रूटिंग और 1 साझा विशेषज्ञ, और इस संरचना को MobileMoE-S/M/L के तीन संस्करणों के लिए उपयोग किया।

मेटा

चित्र｜गणना के आदर्श परिस्थितियों में MoE मॉडल का स्केलिंग।

मेटा

चित्र｜MoE आर्किटेक्चर की प्रशिक्षण दक्षता।

14 बेसिक एवलुएशन: नया एंड-साइड पैरेटो फ्रंटियर बनाएं

अध्ययन टीम ने MobileMoE को Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B जैसे मॉडल के साथ, सामान्य तर्क, ज्ञान, विज्ञान, पठन और तर्क जैसे पाँच श्रेणियों में कुल 14 बेसलाइन टेस्ट में एक समान सेटिंग में पुनः मूल्यांकन किया।

मेटा

चित्र｜MobileMoE की प्री-ट्रेनिंग ट्रैजेक्टरी।

बेस मॉडल तुलना परिणाम दर्शाते हैं कि MobileMoE-M का औसत स्कोर Qwen3.5 2B से अधिक है, और MobileMoE-L का औसत स्कोर OLMoE-1B-7B से अधिक है, और इसके लिए आवश्यक मॉडल आकार भी छोटा है; अनुसंधान टीम ने यह भी उल्लेख किया कि MobileMoE-L का बेस संस्करण औसत स्कोर पहले से ही OLMoE-1B-7B के इंस्ट्रक्ट संस्करण से अधिक है। प्रशिक्षण आकार के संदर्भ में, MobileMoE लगभग 6T प्री-ट्रेनिंग टोकन का उपयोग करता है, जो Llama 3.2 1B के 9T और SmolLM2 1.7B के 11T से कम है। निर्देश सूक्ष्म-समायोजित मॉडल की समग्र तुलना में, MobileMoE-M की औसत सटीकता पहले से ही OLMoE-1B-7B के करीब है, लेकिन सक्रिय पैरामीटर और कुल पैरामीटर दोनों लगभग 60% कम हैं।

मेटा

चित्र｜MobileMoE-Base मॉडल की तुलना।

एडवांस्ड रिव्यू: कोड और मैथमेटिकल टास्क में बेहतर फायदा

एडवांस्ड इवैलुएशन में, इंस्ट्रक्शन फाइन-ट्यूनिंग के बाद, MobileMoE कोड और मैथमेटिक्स टास्क पर बेहतर प्रदर्शन करता है। MobileMoE-L के मामले में, यह कोड और मैथमेटिक्स दोनों इवैलुएशन में Qwen3.5 2B और OLMoE-1B-7B से अधिक औसत स्कोर प्राप्त करता है। हालाँकि, अनुसंधान टीम ने यह भी उल्लेख किया कि इंस्ट्रक्शन फॉलोइंग और कॉन्सेप्टुअल रीजनिंग क्षमताओं में, Qwen3.5 2B अभी भी अधिक मजबूत है।

मेटा

चित्र | उन्नत बेंचमार्क पर Instruct मॉडल की तुलना।

क्वांटाइजेशन और एंड-एज डिप्लॉयमेंट: INT4 के बाद भी प्रतिस्पर्धात्मकता बनी रहती है, मोबाइल एंड पर स्पष्ट तेजी

क्वांटाइजेशन के बाद, MobileMoE-S/M/L के समग्र औसत स्कोर अपने BF16 संस्करणों की तुलना में कम हो गए, लेकिन यह कमी लगभग 2 से 3 अंक के बीच रही। फिर भी, MobileMoE-L का INT4 संस्करण OLMoE-1B-7B Instruct के BF16 संस्करण से बेहतर प्रदर्शन करता है।

अनुसंधान टीम ने MobileMoE को Samsung Galaxy S25 और iPhone 16 Pro पर टेस्ट के लिए डिप्लॉय किया। परिणामों के अनुसार, तुलनात्मक INT4 वजन मेमोरी की स्थिति में, MobileLLM-Pro की तुलना में MobileMoE-S ने इनपुट चरण में 1.8-3.8 गुना और टोकन-दर-टोकन जनरेशन चरण में 2.2-3.4 गुना की गति में सुधार किया।

स्मृति उपयोग के संदर्भ में, Samsung Galaxy S25, 8K संदर्भ और वास्तविक प्रॉम्प्ट की स्थिति में, MobileMoE-S का शीर्ष RSS 1.49GB है, जो MobileLLM-Pro के 1.91GB से कम है।

मेटा

चित्र｜एंड-साइड रनटाइम लेटेंसी।

कमियाँ और भविष्य की दिशा

वर्तमान में, उच्चतर स्तर के निर्देश अनुसरण और ज्ञान एवं तर्क क्षमता में, निर्देश सूक्ष्म समायोजित MobileMoE, Qwen3.5 2B की तुलना में पिछड़ा हुआ है। अनुसंधान टीम का मानना है कि यह अंतर अधिक विकसित पोस्ट-ट्रेनिंग से संबंधित हो सकता है। भविष्य में, इस अंतर को कम करने के लिए, प्रशिक्षण पक्ष को डिस्टिलेशन, तर्क-उन्मुख पोस्ट-ट्रेनिंग और मल्टीमॉडल विस्तार को मजबूत करने की आवश्यकता होगी।

इसके अलावा, अनुसंधान टीम ने बताया कि मोबाइल फोन पर MoE का मेमोरी उपयोग इनपुट सामग्री के आधार पर बदलता है। निश्चित टेम्पलेट इनपुट की तुलना में, वास्तविक इनपुट आमतौर पर अधिक मेमोरी उपयोग का कारण बनता है। यदि केवल टेम्पलेट-आधारित इनपुट के आधार पर परीक्षण किया जाए, तो वास्तविक डिप्लॉयमेंट स्थितियों में मेमोरी का दबाव कम आकलित किया जा सकता है। भविष्य में, एंड-साइड MoE के वास्तविक मेमोरी प्रदर्शन का अधिक सटीक मूल्यांकन करने के लिए, अधिक वास्तविक परीक्षण डेटा की आवश्यकता होगी।

इसी समय, अनुसंधान टीम ने CPU और GPU बैकएंड पर सिस्टमैटिक रियल-डिवाइस टेस्टिंग पूरी कर ली है, लेकिन NPU रास्ता अभी तक अन्वेषण के लिए बाकी है। इसके अलावा, MoE का रनटाइम मेमोरी उपयोग इनपुट कंटेंट के प्रति संवेदनशील है। भविष्य में, डायनामिक रूटिंग, एक्सपर्ट प्रूनिंग, मिक्स्ड प्रिसिजन क्वांटाइजेशन और मोबाइल NPU डिप्लॉयमेंट, एंड-साइड दक्षता में सुधार के लिए अगले चरण की दिशाएँ हैं।

अधिक तकनीकी विवरण के लिए, मूल पेपर देखें।

यह लेख वेचेन ग्रुप "एकेडमिक टूटल" (ID: SciTouTiao) से आया है, लेखक: शियान क्वान्सी