近年來,混合專家模型(MoE)已廣泛用於雲端大模型。但在手機端,大語言模型(LLM)仍以稠密架構為主。過去,手機設備對記憶體、算力和時延的約束更嚴苛,十億級以下活躍參數範圍內的端側 MoE 一直缺少系統研究。如今,隨著移動設備 DRAM 容量提升,MoE 也開始有機會部署到智慧型手機上。
Meta 團隊提出的 MobileMoE,首次在商用智慧型手機上實現了高效的 MoE 推理。結果顯示,在 14 個基礎測試中,MobileMoE-S/M 在記憶體相近的情況下,僅用稠密基線 1/2 到 1/4 的推理計算量,就達到了持平甚至更高的平均準確率。實測中,MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 後端提速最明顯,輸入階段最高可提速 3.8 倍。

論文連結:https://arxiv.org/abs/2605.27358
研究團隊還提出了一套端側 MoE 縮放規律,用於確定更適合手機部署的模型結構。MobileMoE 為端側大語言模型建立了新的帕累托前沿,在精度與推理計算開銷的權衡上取得了更優結果。

圖|MobileMoE 為端側大語言模型建立了新的帕累托前沿。
MobileMoE 是如何設計的?
MobileMoE 可以這樣理解:它是一類面向端側部署設計的 MoE 語言模型。整體仍是 decoder-only Transformer,但將原來的稠密前饋層替換為 MoE 層。路由器會為每個 token 選出得分最高的少數專家參與計算,同時還有一個共享專家始終參與計算。整個訓練流程分為四步:預訓練、中期訓練、監督微調和量化感知訓練。
預訓練:研究團隊在 2048 的上下文長度下,使用約 6T token 的開放許可數據進行預訓練,數據整體以 Web 為主,同時覆蓋數學、代碼、知識和科學等領域。
中期訓練:研究團隊將上下文長度擴展至 8192,並進一步提高知識、代碼、數學和科學等高質量數據的占比,總規模約為 500B token。
監督微調(SFT):研究團隊在超過 8000 萬個樣本的開放許可指令微調數據上,對 MobileMoE-Base 進行了微調。
量化感知訓練:研究團隊將線性層和 embedding 量化至 INT4,將激活動態量化至 INT8,router 則保留 FP32 精度。

圖|MobileMoE 的四階段訓練。
實驗結果
消融實驗結果
研究團隊先比較了三個架構變量:專家數量 E、專家粒度 g,以及是否加入共享專家。

圖|專家數量 E 的縮放。
在固定記憶體預算下,當記憶體高於約 0.25GB 時,MoE 的損失開始低於對應的稠密模型。繼續增加專家數量 E,損失會進一步下降,但當 E 增加到 8 後,邊際收益已明顯減弱。對專家粒度 g 的實驗則表明,更細粒度的專家配置整體更優,其中 g=8 在效果和訓練開銷之間取得了較好的平衡;當 g 從 8 增加到 16 時,損失改善不足 0.01,但訓練時長增加約 50%。在相同計算預算下,加入共享專家後模型損失進一步下降。
基於消融實驗結果,研究團隊最終採用了 E=8、g=8、帶共享專家的配置,即 60 個細粒度路由專家、Top-4 路由和 1 個共享專家,並將這套結構用於 MobileMoE-S/M/L 三個版本。

圖|在計算最優條件下對 MoE 模型進行縮放。

圖|MoE 架構的訓練效率。
14 項基礎評測:建立新的端側帕累托前沿
研究團隊在常識推理、知識、科學、閱讀和推理五類共 14 項基礎評測中,將 MobileMoE 與 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型在統一設定下重新評測。

圖|MobileMoE 的預訓練軌跡。
Base 模型對比結果顯示,MobileMoE-M 的平均分高於 Qwen3.5 2B,MobileMoE-L 的平均分高於 OLMoE-1B-7B,且所需模型規模更小;研究團隊還提到,MobileMoE-L 的 Base 版本平均分已高於 OLMoE-1B-7B 的 Instruct 版本。在訓練規模上,MobileMoE 使用約 6T 預訓練 token,少於 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微調模型的整體比較中,MobileMoE-M 的平均準確率已接近 OLMoE-1B-7B,但活躍參數和總參數均少約 60%。

圖|MobileMoE-Base 模型對比。
高級評測:代碼與數學任務的優勢更為明顯
在指令微調後的高級評測中,MobileMoE 在代碼和數學任務上表現更突出。以 MobileMoE-L 為例,它在代碼和數學兩類評測中的平均分均高於 Qwen3.5 2B 和 OLMoE-1B-7B。不過,研究團隊也提到,在指令跟隨和知識推理兩類能力上,Qwen3.5 2B 仍然更強。

圖|在高級基準測試上的 Instruct 模型對比。
量化與端側部署:即使轉為 INT4 仍保持競爭力,手機端明顯提速
量化後,MobileMoE-S/M/L 的整體平均分相比各自的 BF16 版本有所下降,但降幅大致在 2 到 3 分之間。即便如此,MobileMoE-L 的 INT4 版本表現仍高於 OLMoE-1B-7B Instruct 的 BF16 版本。
研究團隊還將 MobileMoE 部署至 Samsung Galaxy S25 和 iPhone 16 Pro 上進行測試。結果顯示,在可比的 INT4 權重記憶體條件下,MobileMoE-S 相較於 MobileLLM-Pro,輸入階段提速 1.8-3.8 倍,逐 token 生成階段提速 2.2-3.4 倍。
在記憶體佔用方面,於 Samsung Galaxy S25、8K 上下文和真實 prompt 條件下,MobileMoE-S 的峰值 RSS 為 1.49 GB,低於 MobileLLM-Pro 的 1.91 GB。

圖|端側運行時延遲。
不足與未來方向
目前,在更高階的指令遵循以及知識與推理能力上,指令微調後的 MobileMoE 仍落後於 Qwen3.5 2B。研究團隊認為,這一差距可能與更完善的後訓練有關。未來,若要縮小這一差距,訓練側需要加強蒸餾、面向推理的後訓練,以及多模態擴展。
此外,研究團隊指出,MoE 在手機上的記憶體佔用會隨輸入內容變化。與固定模板輸入相比,真實輸入通常會帶來更高的記憶體佔用。若僅基於模板化輸入進行測試,可能會低估實際部署場景中的記憶體壓力。未來,如果要更準確評估端側 MoE 的真實記憶體表現,仍需要基於更多的真實實測數據。
同時,研究團隊已在 CPU 和 GPU 後端完成系統性的實機測試,但 NPU 路線仍有待探索。同時,MoE 的運行時內存佔用對輸入內容較為敏感。未來,動態路由、專家剪枝、混合精度量化以及移動端 NPU 部署,都是後續繼續提升端側效率的方向。
更多技術細節,請參閱原論文。
本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:夏千斯
