Meta 提出 MobileMoE,在 iPhone 16 Pro 上實現 3.8 倍速度提升

icon MarsBit
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Meta 已推出 MobileMoE,這是首款部署於商用智慧型手機的專家混合模型。在 iPhone 16 Pro 上,MobileMoE-S 在輸入階段實現了 3.8 倍的速度提升。該模型在使用較少計算資源的情況下,準確率與或超越了密集型基線模型。它為邊緣端 LLM 設定了新的帕累托前沿,在精確度與成本之間取得平衡。此鏈上新聞突顯了 Meta 在行動 AI 領域的推進。隨著邊緣運算日益普及,交易所或將陸續上線新代幣。

近年來,混合專家模型(MoE)已廣泛用於雲端大模型。但在手機端,大語言模型(LLM)仍以稠密架構為主。過去,手機設備對記憶體、算力和時延的約束更嚴苛,十億級以下活躍參數範圍內的端側 MoE 一直缺少系統研究。如今,隨著移動設備 DRAM 容量提升,MoE 也開始有機會部署到智慧型手機上。

Meta 團隊提出的 MobileMoE,首次在商用智慧型手機上實現了高效的 MoE 推理。結果顯示,在 14 個基礎測試中,MobileMoE-S/M 在記憶體相近的情況下,僅用稠密基線 1/2 到 1/4 的推理計算量,就達到了持平甚至更高的平均準確率。實測中,MobileMoE-S 在 iPhone 16 Pro 的 GPU/MLX 後端提速最明顯,輸入階段最高可提速 3.8 倍。

Meta

論文連結:https://arxiv.org/abs/2605.27358

研究團隊還提出了一套端側 MoE 縮放規律,用於確定更適合手機部署的模型結構。MobileMoE 為端側大語言模型建立了新的帕累托前沿,在精度與推理計算開銷的權衡上取得了更優結果。

Meta

圖|MobileMoE 為端側大語言模型建立了新的帕累托前沿。

MobileMoE 是如何設計的?

MobileMoE 可以這樣理解:它是一類面向端側部署設計的 MoE 語言模型。整體仍是 decoder-only Transformer,但將原來的稠密前饋層替換為 MoE 層。路由器會為每個 token 選出得分最高的少數專家參與計算,同時還有一個共享專家始終參與計算。整個訓練流程分為四步:預訓練、中期訓練、監督微調和量化感知訓練。

預訓練:研究團隊在 2048 的上下文長度下,使用約 6T token 的開放許可數據進行預訓練,數據整體以 Web 為主,同時覆蓋數學、代碼、知識和科學等領域。

中期訓練:研究團隊將上下文長度擴展至 8192,並進一步提高知識、代碼、數學和科學等高質量數據的占比,總規模約為 500B token。

監督微調(SFT):研究團隊在超過 8000 萬個樣本的開放許可指令微調數據上,對 MobileMoE-Base 進行了微調。

量化感知訓練:研究團隊將線性層和 embedding 量化至 INT4,將激活動態量化至 INT8,router 則保留 FP32 精度。

Meta

圖|MobileMoE 的四階段訓練。

實驗結果

消融實驗結果

研究團隊先比較了三個架構變量:專家數量 E、專家粒度 g,以及是否加入共享專家。

Meta

圖|專家數量 E 的縮放。

在固定記憶體預算下,當記憶體高於約 0.25GB 時,MoE 的損失開始低於對應的稠密模型。繼續增加專家數量 E,損失會進一步下降,但當 E 增加到 8 後,邊際收益已明顯減弱。對專家粒度 g 的實驗則表明,更細粒度的專家配置整體更優,其中 g=8 在效果和訓練開銷之間取得了較好的平衡;當 g 從 8 增加到 16 時,損失改善不足 0.01,但訓練時長增加約 50%。在相同計算預算下,加入共享專家後模型損失進一步下降。

基於消融實驗結果,研究團隊最終採用了 E=8、g=8、帶共享專家的配置,即 60 個細粒度路由專家、Top-4 路由和 1 個共享專家,並將這套結構用於 MobileMoE-S/M/L 三個版本。

Meta

圖|在計算最優條件下對 MoE 模型進行縮放。

Meta

圖|MoE 架構的訓練效率。

14 項基礎評測:建立新的端側帕累托前沿

研究團隊在常識推理、知識、科學、閱讀和推理五類共 14 項基礎評測中,將 MobileMoE 與 Gemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7B 等模型在統一設定下重新評測。

Meta

圖|MobileMoE 的預訓練軌跡。

Base 模型對比結果顯示,MobileMoE-M 的平均分高於 Qwen3.5 2B,MobileMoE-L 的平均分高於 OLMoE-1B-7B,且所需模型規模更小;研究團隊還提到,MobileMoE-L 的 Base 版本平均分已高於 OLMoE-1B-7B 的 Instruct 版本。在訓練規模上,MobileMoE 使用約 6T 預訓練 token,少於 Llama 3.2 1B 的 9T 和 SmolLM2 1.7B 的 11T。在指令微調模型的整體比較中,MobileMoE-M 的平均準確率已接近 OLMoE-1B-7B,但活躍參數和總參數均少約 60%。

Meta

圖|MobileMoE-Base 模型對比。

高級評測:代碼與數學任務的優勢更為明顯

在指令微調後的高級評測中,MobileMoE 在代碼和數學任務上表現更突出。以 MobileMoE-L 為例,它在代碼和數學兩類評測中的平均分均高於 Qwen3.5 2B 和 OLMoE-1B-7B。不過,研究團隊也提到,在指令跟隨和知識推理兩類能力上,Qwen3.5 2B 仍然更強。

Meta

圖|在高級基準測試上的 Instruct 模型對比。

量化與端側部署:即使轉為 INT4 仍保持競爭力,手機端明顯提速

量化後,MobileMoE-S/M/L 的整體平均分相比各自的 BF16 版本有所下降,但降幅大致在 2 到 3 分之間。即便如此,MobileMoE-L 的 INT4 版本表現仍高於 OLMoE-1B-7B Instruct 的 BF16 版本。

研究團隊還將 MobileMoE 部署至 Samsung Galaxy S25 和 iPhone 16 Pro 上進行測試。結果顯示,在可比的 INT4 權重記憶體條件下,MobileMoE-S 相較於 MobileLLM-Pro,輸入階段提速 1.8-3.8 倍,逐 token 生成階段提速 2.2-3.4 倍。

在記憶體佔用方面,於 Samsung Galaxy S25、8K 上下文和真實 prompt 條件下,MobileMoE-S 的峰值 RSS 為 1.49 GB,低於 MobileLLM-Pro 的 1.91 GB。

Meta

圖|端側運行時延遲。

不足與未來方向

目前,在更高階的指令遵循以及知識與推理能力上,指令微調後的 MobileMoE 仍落後於 Qwen3.5 2B。研究團隊認為,這一差距可能與更完善的後訓練有關。未來,若要縮小這一差距,訓練側需要加強蒸餾、面向推理的後訓練,以及多模態擴展。

此外,研究團隊指出,MoE 在手機上的記憶體佔用會隨輸入內容變化。與固定模板輸入相比,真實輸入通常會帶來更高的記憶體佔用。若僅基於模板化輸入進行測試,可能會低估實際部署場景中的記憶體壓力。未來,如果要更準確評估端側 MoE 的真實記憶體表現,仍需要基於更多的真實實測數據。

同時,研究團隊已在 CPU 和 GPU 後端完成系統性的實機測試,但 NPU 路線仍有待探索。同時,MoE 的運行時內存佔用對輸入內容較為敏感。未來,動態路由、專家剪枝、混合精度量化以及移動端 NPU 部署,都是後續繼續提升端側效率的方向。

更多技術細節,請參閱原論文。

本文來自微信公眾號「學術頭條」(ID:SciTouTiao),作者:夏千斯

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露