Meta 提出 MobileMoE，在 iPhone 16 Pro 上實現 3.8 倍速度提升

近年來，混合專家模型（MoE）已廣泛用於雲端大模型。但在手機端，大語言模型（LLM）仍以稠密架構為主。過去，手機設備對記憶體、算力和時延的約束更嚴苛，十億級以下活躍參數範圍內的端側 MoE 一直缺少系統研究。如今，隨著移動設備 DRAM 容量提升，MoE 也開始有機會部署到智慧型手機上。

Meta 團隊提出的 MobileMoE，首次在商用智慧型手機上實現了高效的 MoE 推理。結果顯示，在 14 個基礎測試中，MobileMoE-S/M 在記憶體相近的情況下，僅用稠密基線 1/2 到 1/4 的推理計算量，就達到了持平甚至更高的平均準確率。實測中，MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 後端提速最明顯，輸入階段最高可提速 3.8 倍。

Meta

論文連結：https://arxiv.org/abs/2605.27358

研究團隊還提出了一套端側 MoE 縮放規律，用於確定更適合手機部署的模型結構。MobileMoE 為端側大語言模型建立了新的帕累托前沿，在精度與推理計算開銷的權衡上取得了更優結果。

Meta

圖｜MobileMoE 為端側大語言模型建立了新的帕累托前沿。

MobileMoE 是如何設計的？

MobileMoE 可以這樣理解：它是一類面向端側部署設計的 MoE 語言模型。整體仍是 decoder-only Transformer，但將原來的稠密前饋層替換為 MoE 層。路由器會為每個 token 選出得分最高的少數專家參與計算，同時還有一個共享專家始終參與計算。整個訓練流程分為四步：預訓練、中期訓練、監督微調和量化感知訓練。

預訓練：研究團隊在 2048 的上下文長度下，使用約 6T token 的開放許可數據進行預訓練，數據整體以 Web 為主，同時覆蓋數學、代碼、知識和科學等領域。

中期訓練：研究團隊將上下文長度擴展至 8192，並進一步提高知識、代碼、數學和科學等高質量數據的占比，總規模約為 500B token。

監督微調（SFT）：研究團隊在超過 8000 萬個樣本的開放許可指令微調數據上，對 MobileMoE-Base 進行了微調。

量化感知訓練：研究團隊將線性層和 embedding 量化至 INT4，將激活動態量化至 INT8，router 則保留 FP32 精度。

Meta

圖｜MobileMoE 的四階段訓練。

實驗結果

消融實驗結果

研究團隊先比較了三個架構變量：專家數量 E、專家粒度 g，以及是否加入共享專家。

Meta

圖｜專家數量 E 的縮放。

在固定記憶體預算下，當記憶體高於約 0.25GB 時，MoE 的損失開始低於對應的稠密模型。繼續增加專家數量 E，損失會進一步下降，但當 E 增加到 8 後，邊際收益已明顯減弱。對專家粒度 g 的實驗則表明，更細粒度的專家配置整體更優，其中 g=8 在效果和訓練開銷之間取得了較好的平衡；當 g 從 8 增加到 16 時，損失改善不足 0.01，但訓練時長增加約 50%。在相同計算預算下，加入共享專家後模型損失進一步下降。

基於消融實驗結果，研究團隊最終採用了 E=8、g=8、帶共享專家的配置，即 60 個細粒度路由專家、Top-4 路由和 1 個共享專家，並將這套結構用於 MobileMoE-S/M/L 三個版本。

Meta

圖｜在計算最優條件下對 MoE 模型進行縮放。

Meta

圖｜MoE 架構的訓練效率。

14 項基礎評測：建立新的端側帕累托前沿

研究團隊在常識推理、知識、科學、閱讀和推理五類共 14 項基礎評測中，將 MobileMoE 與 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型在統一設定下重新評測。

Meta

圖｜MobileMoE 的預訓練軌跡。

Base 模型對比結果顯示，MobileMoE-M 的平均分高於 Qwen3.5 2B，MobileMoE-L 的平均分高於 OLMoE-1B-7B，且所需模型規模更小；研究團隊還提到，MobileMoE-L 的 Base 版本平均分已高於 OLMoE-1B-7B 的 Instruct 版本。在訓練規模上，MobileMoE 使用約 6T 預訓練 token，少於 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微調模型的整體比較中，MobileMoE-M 的平均準確率已接近 OLMoE-1B-7B，但活躍參數和總參數均少約 60%。

Meta

圖｜MobileMoE-Base 模型對比。

高級評測：代碼與數學任務的優勢更為明顯

在指令微調後的高級評測中，MobileMoE 在代碼和數學任務上表現更突出。以 MobileMoE-L 為例，它在代碼和數學兩類評測中的平均分均高於 Qwen3.5 2B 和 OLMoE-1B-7B。不過，研究團隊也提到，在指令跟隨和知識推理兩類能力上，Qwen3.5 2B 仍然更強。

Meta

圖｜在高級基準測試上的 Instruct 模型對比。

量化與端側部署：即使轉為 INT4 仍保持競爭力，手機端明顯提速

量化後，MobileMoE-S/M/L 的整體平均分相比各自的 BF16 版本有所下降，但降幅大致在 2 到 3 分之間。即便如此，MobileMoE-L 的 INT4 版本表現仍高於 OLMoE-1B-7B Instruct 的 BF16 版本。

研究團隊還將 MobileMoE 部署至 Samsung Galaxy S25 和 iPhone 16 Pro 上進行測試。結果顯示，在可比的 INT4 權重記憶體條件下，MobileMoE-S 相較於 MobileLLM-Pro，輸入階段提速 1.8-3.8 倍，逐 token 生成階段提速 2.2-3.4 倍。

在記憶體佔用方面，於 Samsung Galaxy S25、8K 上下文和真實 prompt 條件下，MobileMoE-S 的峰值 RSS 為 1.49 GB，低於 MobileLLM-Pro 的 1.91 GB。

Meta

圖｜端側運行時延遲。

不足與未來方向

目前，在更高階的指令遵循以及知識與推理能力上，指令微調後的 MobileMoE 仍落後於 Qwen3.5 2B。研究團隊認為，這一差距可能與更完善的後訓練有關。未來，若要縮小這一差距，訓練側需要加強蒸餾、面向推理的後訓練，以及多模態擴展。

此外，研究團隊指出，MoE 在手機上的記憶體佔用會隨輸入內容變化。與固定模板輸入相比，真實輸入通常會帶來更高的記憶體佔用。若僅基於模板化輸入進行測試，可能會低估實際部署場景中的記憶體壓力。未來，如果要更準確評估端側 MoE 的真實記憶體表現，仍需要基於更多的真實實測數據。

同時，研究團隊已在 CPU 和 GPU 後端完成系統性的實機測試，但 NPU 路線仍有待探索。同時，MoE 的運行時內存佔用對輸入內容較為敏感。未來，動態路由、專家剪枝、混合精度量化以及移動端 NPU 部署，都是後續繼續提升端側效率的方向。

更多技術細節，請參閱原論文。

本文來自微信公眾號「學術頭條」（ID：SciTouTiao），作者：夏千斯