Propose ng Meta ang MobileMoE, nakamit ang 3.8x speedup sa iPhone 16 Pro

Sa mga nakaraang taon, ang mixture-of-experts (MoE) models ay napakalawak na ginamit sa cloud-based large models. Ngunit sa mga mobile device, ang large language models (LLM) ay patuloy na pangunahing gumagamit ng dense architectures. Noon, ang mga limitasyon sa memorya, computing power, at latency ng mga mobile device ay mas mahigpit, kaya ang end-side MoE sa ilalim ng isang bilyon aktibong parameter ay wala pang sistematisadong pag-aaral. Ngayon, kasunod ng pagtaas ng DRAM capacity ng mga mobile device, ang MoE ay nagsisimulang magkaroon ng pagkakataon na ma-deploy sa mga smartphone.

Ang MobileMoE na inihain ng team ng Meta, unang nag实现了 na epektibong MoE inference sa komersyal na smartphone. Ang mga resulta ay ipinakita na sa 14 na pangunahing pagsubok, ang MobileMoE-S/M ay nakamit ang parehong o mas mataas na average accuracy gamit ang 1/2 hanggang 1/4 ng inference computation ng dense baseline, habang may katulad na memorya. Sa praktikal na pagsubok, ang pinakamalaking pagtaas ng bilis sa GPU/MLX backend ng iPhone 16 Pro ay naranasan ng MobileMoE-S, na maaaring umabot sa 3.8 beses sa input stage.

Meta

Link ng papel: https://arxiv.org/abs/2605.27358

Ang pananaliksik na koponan ay nagmungkahi rin ng isang set ng mga patakaran sa pag-scall ng MoE sa endpoint upang matukoy ang mga modelo na mas angkop para sa pag-deploy sa mobile. Ang MobileMoE ay nagtatag ng bagong Pareto frontier para sa mga malaking modelo sa wika sa endpoint, na nagtataglay ng mas mabuting kompromiso sa pagitan ng pagkakatumpak at gastos sa pagpapatakbo ng pagpapaliwanag.

Meta

Larawan | MobileMoE ay nagtatag ng bagong Pareto frontier para sa mga malaking modelo ng wika sa gilid.

Paano isinagawa ang MobileMoE?

Ang MobileMoE ay maaaring maunawaan bilang isang uri ng MoE language model na disenyo para sa deployment sa endpoint. Ang buong modelo ay nananatiling decoder-only Transformer, ngunit ang dating dense feed-forward layer ay napalitan ng MoE layer. Ang router ay pumipili ng ilang pinakamataas na skor na expert para maging bahagi ng computation, habang may isang shared expert na laging nakikilahok. Ang buong proseso ng pagtuturo ay nahahati sa apat na hakbang: pre-training, mid-stage training, supervised fine-tuning, at quantization-aware training.

Pre-training: Ang panlitang ekipa ay nag-pre-train gamit ang mga 6T token ng open-licensed data sa kontekstong haba ng 2048, kung saan ang data ay pangkabuuang batay sa Web, kasama na ang mga larangan ng matematika, code, kaalaman, at agham.

Mid-term training: Inilawak ng research team ang haba ng konteksto sa 8192 at dagdagan pa ang proporsyon ng mataas na kalidad na data tulad ng kaalaman, code, matematika, at agham, na may kabuuang laki na humigit-kumulang 500B token.

Supervised Fine-Tuning (SFT): Sinusunod ng panlitik na pangkat ang MobileMoE-Base sa isang bukas na lisensyadong instruction fine-tuning dataset na may higit sa 80 milyong sample.

Quantization-aware training: Ang panlitang ekipa ay nag-quantize sa linear layer at embedding sa INT4, dinamikong nag-quantize sa activation sa INT8, at pinanatili ang router sa FP32 precision.

Meta

Litratong nagpapakita ng apat na yugto ng pagtuturo ng MobileMoE.

Mga resulta ng eksperimento

Mga resulta ng ablation study

Kinumpara ng panel ng pag-aaral ang tatlong variable ng arkitektura: bilang ng mga eksperto E, granularity ng eksperto g, at kung ilalagay ang mga eksperto na nagbabahagi.

Meta

Larawan | Pag-scaled ng bilang ng mga eksperto E.

Sa ilalim ng fixed memory budget, ang pagkawala ng MoE ay nagsimulang mababa kaysa sa kaukulang dense model kapag ang memory ay higit sa halos 0.25GB. Ang pagpapataas ng bilang ng mga eksperto E ay nagdudulot ng karagdagang pagbaba sa pagkawala, ngunit ang marginal benefit ay malinaw na bumababa kapag ang E ay umabot sa 8. Ang mga eksperimento sa expert granularity g ay nagpapakita na ang mas maliit na antas ng expert configuration ay mas mabuti sa kabuuan, kung saan ang g=8 ay nagtatagpo ng mabuting balanse sa epekto at gastos sa pagtuturo; kapag ang g ay tumataas mula sa 8 patungo sa 16, ang pagpapababa sa pagkawala ay mas maliit sa 0.01, ngunit ang panahon sa pagtuturo ay tumataas ng halos 50%. Sa parehong compute budget, ang pagdaragdag ng shared experts ay nagdudulot ng karagdagang pagbaba sa pagkawala ng model.

Batay sa mga resulta ng ablation study, ang team ng pag-aaral ay huling ginamit ang konfigurasyon na E=8, g=8, na may shared expert, kaya 60 na fine-grained routing experts, Top-4 routing, at 1 shared expert, at ginamit ang istrukturang ito sa tatlong bersyon ng MobileMoE-S/M/L.

Meta

Larawan | Pag-scalar sa MoE model sa pinakamainam na kondisyon.

Meta

Larawan｜Eksena ng pagtrato ng MoE architecture.

14 na pangunahing pagsusuri: Pagbuo ng bagong Pareto frontier sa edge side

Inilulohi ng panel ng pag-aaral ang MobileMoE kasama ang mga modelo tulad ng Gemma 3, SmolLM2, Qwen3.5, OLMo 2, at OLMoE-1B-7B sa isang magkakaparehong pagtatala sa 14 na pagsusulit sa limang kategorya: pangkaraniwang pag-iisip, kaalaman, agham, pagbasa, at pag-iisip.

Meta

Litratong nagpapakita ng pre-training trajectory ng MobileMoE.

Ang mga resulta ng paghahambing ng Base model ay nagpapakita na ang MobileMoE-M ay may mas mataas na average score kaysa sa Qwen3.5 2B, at ang MobileMoE-L ay may mas mataas na average score kaysa sa OLMoE-1B-7B, habang nangangailangan ng mas maliit na model size; sinabi rin ng research team na ang Base version ng MobileMoE-L ay may average score na mas mataas na kaysa sa Instruct version ng OLMoE-1B-7B. Sa laki ng pagtuturo, ginamit ng MobileMoE ang halos 6T pre-training tokens, mas kaunti kaysa sa 9T ng Llama 3.2 1B at 11T ng SmolLM2 1.7B. Sa pangkabuuan paghahambing ng instruction-tuned models, ang average accuracy ng MobileMoE-M ay nasa malapit na antas na kaysa sa OLMoE-1B-7B, ngunit may 60% mas kaunting active at total parameters.

Meta

Larawan | Pagkukumpara ng MobileMoE-Base model.

Advanced review: Mas malinaw ang pangunahing kahusayan sa code at matematikong mga gawain

Sa advanced evaluation pagkatapos ng instruction fine-tuning, mas malakas ang MobileMoE sa code at math tasks. Bilang halimbawa, ang MobileMoE-L ay may mas mataas na average score sa parehong code at math evaluations kaysa kay Qwen3.5 2B at OLMoE-1B-7B. Gayunpaman, binanggit ng research team na patuloy na mas malakas ang Qwen3.5 2B sa instruction following at knowledge reasoning.

Meta

Litratong nagpapakita ng pagkukumpara ng Instruct models sa advanced benchmark.

Quantification at the Edge Deployment: Nananatitig na kompetitibo kahit na INT4, malinaw na pagpapabilis sa mobile device

Pagkatapos ng quantization, ang pangkalahatang average score ng MobileMoE-S/M/L ay bumaba kumpara sa kanilang mga bersyon na BF16, ngunit ang pagbaba ay nasa paligid ng 2 hanggang 3 puntos. Kahit ganun, ang INT4 na bersyon ng MobileMoE-L ay patuloy na mas mataas kaysa sa BF16 na bersyon ng OLMoE-1B-7B Instruct.

Ang koponan ng pananaliksik ay ipinadeploy din ang MobileMoE sa Samsung Galaxy S25 at iPhone 16 Pro para sa pagsubok. Ang mga resulta ay nagpakita na, sa mga katumbas na kondisyon ng memorya ng timbang na INT4, ang MobileMoE-S ay nagtataglay ng 1.8-3.8 beses na mas mabilis na pagpapabilis sa hakbang ng input, at 2.2-3.4 beses na mas mabilis na pagpapabilis sa hakbang ng pagbuo ng bawat token kumpara sa MobileLLM-Pro.

Sa aspeto ng paggamit ng memorya, ang peak RSS ng MobileMoE-S ay 1.49GB sa ilalim ng mga kondisyon ng Samsung Galaxy S25, 8K context, at real prompt, na mas mababa kaysa sa 1.91GB ng MobileLLM-Pro.

Meta

Litratong nagpapakita ng latency sa pagpapatakbo sa gilid ng device.

Kakulangan at direksyon sa hinaharap

Sa kasalukuyan, sa mas mataas na antas ng pagsumbong ng utos, at sa kaalaman at pag-iisip, ang instruction-tuned MobileMoE ay nananatiling pinapalalim sa Qwen3.5 2B. Naniniwala ang research team na ang pagkakaiba na ito ay maaaring may kaugnayan sa mas maayos na post-training. Sa hinaharap, upang mabawasan ang pagkakaiba na ito, kailangan ng pagpapalakas sa distilasyon, post-training na nakatuon sa pag-iisip, at multi-modal na pagpapalawak sa panig ng pagtuturo.

Dagdag pa ng pananaliksik na timbang, ang paggamit ng memorya ng MoE sa mobile device ay nagbabago batay sa nilalaman ng input. Kumpara sa fixed template input, ang totoong input ay karaniwang nagdudulot ng mas mataas na paggamit ng memorya. Kung ang pagsubok ay batay lamang sa template-based input, maaaring mabawasan ang pagtataya sa presyon ng memorya sa totoong deployment scenario. Sa hinaharap, upang mas tumpak na masukat ang totoong memorya performance ng MoE sa edge device, kailangan pa rin ng mas maraming real-world test data.

Sambil ang pananaliksik ay nagsagawa ng sistematisadong pagsubok sa mga CPU at GPU backend, ang NPU path ay kailangan pa ng pag-aaral. Samantala, ang memory usage ng MoE sa runtime ay sensitibo sa nilalaman ng input. Sa hinaharap, ang dynamic routing, expert pruning, mixed-precision quantization, at deployment sa移动端 NPU ay mga direksyon para sa karagdagang pagpapabuti ng efficiency sa edge side.

Para sa karagdagang teknikal na detalye, tingnan ang orihinal na papel.

Ang artikulong ito ay galing sa WeChat public account na “Academic Headline” (ID: SciTouTiao), may-akda: Xia Qiansi