Meta、MobileMoEを提案、iPhone 16 Proで3.8倍の速度向上を実現

近年、混合専門家モデル（MoE）はクラウド上の大型モデルに広く採用されてきた。しかし、モバイル端末では、大規模言語モデル（LLM）は依然として密なアーキテクチャが主流である。過去には、モバイルデバイスのメモリ、計算能力、遅延に対する制約が厳しく、十億未満のアクティブパラメータ範囲におけるエッジ側MoEに関する体系的な研究は不足していた。しかし、現在ではモバイルデバイスのDRAM容量が向上したことで、MoEをスマートフォンに展開する機会が生まれている。

Metaチームが提案したMobileMoEは、商用スマートフォン上で初めて効率的なMoE推論を実現しました。結果によると、14の基本テストにおいて、MobileMoE-S/Mはメモリ使用量が類似する条件下で、密結合ベースラインの1/2～1/4の推論計算量で、同等またはそれ以上の平均精度を達成しました。実測では、MobileMoE-SがiPhone 16 ProのGPU/MLXバックエンドで最も顕著なスピードアップを示し、入力段階で最大3.8倍の高速化が確認されました。

論文リンク：https://arxiv.org/abs/2605.27358

研究チームは、モバイルデバイスへの展開に適したモデル構造を決定するためのエッジ側MoEスケーリング法則を提案しました。MobileMoEは、エッジ側大規模言語モデルにおいて、精度と推論計算コストのトレードオフにおいて新たなパレートフロンティアを構築しました。

図｜MobileMoEはエッジ側の大規模言語モデルに新たなパレート最前線を構築しました。

MobileMoEはどのように設計されていますか？

MobileMoEは、エッジデバイス向けに設計されたMoE言語モデルの一種です。全体構造は依然としてdecoder-only Transformerですが、従来の密結合フィードフォワード層をMoE層に置き換えています。ルーターは、各トークンに対してスコアが最も高い少数のエキスパートを計算に参加させ、同時に共有エキスパートも常に参加させます。トレーニングフローは以下の4段階で構成されています：プリトレーニング、中期トレーニング、監視付き微調整、および量化認識トレーニング。

事前学習：研究チームは、2048のコンテキスト長で、約6Tのトークンからなるオープンライセンスデータを用いて事前学習を実施しました。データは主にWebコンテンツで構成され、数学、コード、知識、科学などの分野もカバーしています。

中期トレーニング：研究チームはコンテキスト長を8192に拡張し、知識、コード、数学、科学などの高品質データの割合をさらに向上させ、総規模は約500Bトークンです。

監督微調整（SFT）：研究チームは、8000万以上のサンプルを含むオープンライセンスの指令微調整データを用いて、MobileMoE-Baseを微調整しました。

量子化感知トレーニング：研究チームは線形層と埋め込みをINT4に量子化し、活性化をINT8で動的量子化し、ルーターはFP32精度のまま維持しました。

図｜MobileMoEの四段階トレーニング。

実験結果

消去実験結果

研究チームは、専門家数E、専門家の粒度g、および共有専門家の追加有無の3つのアーキテクチャ変数を比較した。

図｜専門家数 E のスケーリング。

固定メモリ予算の下で、メモリが約0.25GBを超えると、MoEの損失は対応する密モデルを下回り始める。専門家数Eをさらに増やすと損失はさらに低下するが、Eが8を超えると収益の増加は明確に鈍化する。専門家の粒度gに関する実験では、より細かい粒度の専門家構成が全体的に優れており、g=8が性能とトレーニングコストの間で良いバランスを達成している。gを8から16に増やすと、損失の改善は0.01未満にとどまるが、トレーニング時間は約50%増加する。同じ計算予算下で共有専門家を追加すると、モデルの損失はさらに低下する。

消去実験の結果に基づき、研究チームは最終的にE=8、g=8、共有エキスパートを備えた構成、すなわち60個の細粒度ルーティングエキスパート、Top-4ルーティング、および1つの共有エキスパートを採用し、この構造をMobileMoE-S/M/Lの3つのバージョンに適用しました。

図｜最適条件下でのMoEモデルのスケーリング

図｜MoEアーキテクチャのトレーニング効率。

14の基本評価：新しいエッジ側パレートフロンティアの構築

研究チームは、常識推論、知識、科学、読解、推論の5つのカテゴリにわたる合計14の基礎評価において、MobileMoEをGemma 3、SmolLM2、Qwen3.5、OLMo 2、OLMoE-1B-7Bなどのモデルと同一の設定で再評価した。

図｜MobileMoE の事前学習トレジャクトリー。

Baseモデルの比較結果によると、MobileMoE-Mの平均スコアはQwen3.5 2Bより高く、MobileMoE-Lの平均スコアはOLMoE-1B-7Bより高く、必要なモデル規模もより小さい。研究チームはまた、MobileMoE-LのBase版の平均スコアが、OLMoE-1B-7BのInstruct版をすでに上回っていると述べている。トレーニング規模において、MobileMoEは約6Tのプリトレーニングトークンを使用しており、Llama 3.2 1Bの9TやSmolLM2 1.7Bの11Tよりも少ない。指令微調整モデル全体の比較では、MobileMoE-Mの平均精度はOLMoE-1B-7Bにほぼ近づいており、アクティブパラメータと総パラメータはそれぞれ約60%少ない。

図｜MobileMoE-Base モデルの比較。

高度評価：コードおよび数学タスクでの優位性がより明確

指令微調整後の高度な評価において、MobileMoEはコードおよび数学タスクでより優れた性能を発揮した。MobileMoE-Lを例に挙げると、コードと数学の両評価における平均スコアは、Qwen3.5 2BおよびOLMoE-1B-7Bを上回っている。ただし、研究チームは、指令従順性と知識推論の2つの能力において、Qwen3.5 2Bが依然として優れていると指摘している。

図｜高度なベンチマークにおけるInstructモデルの比較。

クオンタイズとエッジデプロイ：INT4後も競争力を維持、モバイル端末で明確な速度向上

量子化後、MobileMoE-S/M/L の全体平均スコアはそれぞれのBF16バージョンと比較して低下したが、その低下幅はおおむね2～3点の範囲内である。それでも、MobileMoE-LのINT4バージョンのパフォーマンスは、OLMoE-1B-7B InstructのBF16バージョンを上回っている。

研究チームはまた、MobileMoEをSamsung Galaxy S25およびiPhone 16 Proにデプロイしてテストしました。その結果、同等のINT4重みメモリ条件下で、MobileMoE-SはMobileLLM-Proと比較して、入力段階で1.8～3.8倍、トークンごとの生成段階で2.2～3.4倍高速化されました。

メモリ使用量に関して、Samsung Galaxy S25、8Kコンテキスト、およびリアルなプロンプト条件下でのMobileMoE-SのピークRSSは1.49GBであり、MobileLLM-Proの1.91GBよりも低い。

図｜エッジデバイスでの実行遅延

不足と今後の方向性

現在、より高度な指示順守、知識、および推論能力において、指令微調整されたMobileMoEはQwen3.5 2Bに引き続き後れを取っています。研究チームは、この差がより洗練された後期訓練によるものであると考えています。今後、この差を縮めるためには、訓練側で蒸留、推論に特化した後期訓練、およびマルチモーダル拡張を強化する必要があります。

また、研究チームは、MoEがモバイルデバイス上で占めるメモリ使用量が入力内容によって変動することを指摘しています。固定テンプレート入力と比較して、実際の入力は一般的により高いメモリ使用量をもたらします。テンプレート化された入力のみに基づいてテストを行うと、実際のデプロイシナリオにおけるメモリ負荷を過小評価する可能性があります。今後、エッジ側MoEの実際のメモリ性能をより正確に評価するには、さらに多くの実際の測定データが必要です。

一方、研究チームはCPUおよびGPUバックエンドで体系的な実機テストを完了しましたが、NPUルートはまだ探索段階です。また、MoEの実行時のメモリ使用量は入力内容に敏感です。今後、動的ルーティング、エキスパートのプリニング、ハイブリッド精度量子化、モバイル端末向けNPUデプロイメントは、エッジ側の効率をさらに向上させるための方向性となります。

より詳細な技術情報については、元の論文をご参照ください。

本文は微信公衆号「学術头条」（ID：SciTouTiao）より、著者：夏千斯