Meta propose MobileMoE, réalise un accélération de 3,8 fois sur iPhone 16 Pro

Au cours des dernières années, les modèles mixtes d'experts (MoE) ont été largement utilisés pour les grands modèles dans le cloud. Toutefois, sur les appareils mobiles, les grands modèles de langage (LLM) restent principalement basés sur des architectures denses. Par le passé, les contraintes strictes en matière de mémoire, de puissance de calcul et de latence sur les appareils mobiles ont empêché toute étude systématique des MoE à l'échelle du sous-milliard de paramètres actifs sur appareil. Aujourd'hui, avec l'augmentation de la capacité DRAM des appareils mobiles, les MoE commencent à devenir viables pour le déploiement sur smartphones.

MobileMoE, proposé par l'équipe Meta, réalise pour la première fois un inférence MoE efficace sur des smartphones commerciaux. Les résultats montrent que, sur 14 tests de base, MobileMoE-S/M atteint une précision moyenne équivalente ou supérieure à celle de la base dense, tout en utilisant seulement 1/2 à 1/4 de la charge de calcul, avec une mémoire similaire. En tests réels, MobileMoE-S affiche la plus forte accélération sur le GPU/MLX de l'iPhone 16 Pro, avec une vitesse maximale augmentée jusqu'à 3,8 fois lors de la phase d'entrée.

Meta

Lien vers l'article : https://arxiv.org/abs/2605.27358

L'équipe de recherche a également proposé une série de lois de mise à l'échelle MoE en bout de chaîne pour déterminer les structures de modèles les plus adaptées au déploiement sur smartphone. MobileMoE établit une nouvelle frontière de Pareto pour les grands modèles linguistiques en bout de chaîne, offrant de meilleurs compromis entre précision et coût de calcul d'inférence.

Meta

Image | MobileMoE établit une nouvelle frontière de Pareto pour les grands modèles linguistiques sur appareil.

Comment MobileMoE a-t-il été conçu ?

MobileMoE peut être compris comme une classe de modèles de langage MoE conçus pour le déploiement sur appareils mobiles. Il s'agit toujours d'un Transformer uniquement décodeur, mais les couches feedforward denses originales ont été remplacées par des couches MoE. Le routeur sélectionne pour chaque token un petit nombre d'experts ayant les scores les plus élevés pour participer au calcul, tout en incluant systématiquement un expert partagé. Le processus d'entraînement se déroule en quatre étapes : pré-entraînement, entraînement intermédiaire, fine-tuning supervisé et entraînement sensible à la quantification.

Pré-entraînement : L'équipe de recherche a effectué un pré-entraînement sur une longueur de contexte de 2048, en utilisant environ 6 T de jetons provenant de données sous licence ouverte, principalement issues du Web, tout en couvrant des domaines tels que les mathématiques, le code, les connaissances et la science.

Entraînement à moyen terme : l'équipe de recherche a étendu la longueur du contexte à 8192 et augmenté davantage la proportion de données de haute qualité telles que la connaissance, le code, les mathématiques et la science, pour un volume total d'environ 500 milliards de jetons.

Fine-tuning supervisé (SFT) : L'équipe de recherche a fine-tuné MobileMoE-Base sur un jeu de données d'instructions open-license comprenant plus de 80 millions d'échantillons.

Formation avec quantification sensible : l'équipe de recherche a quantifié les couches linéaires et les embeddings en INT4, la quantification dynamique des activations en INT8, tout en conservant la précision FP32 pour le routeur.

Meta

Figure | Les quatre étapes d'entraînement de MobileMoE.

Résultats de l'expérience

Résultats de l'expérience d'ablation

L'équipe de recherche a d'abord comparé trois variables d'architecture : le nombre d'experts E, la granularité des experts g, et l'ajout ou non d'experts partagés.

Meta

Figure | Échelle du nombre d'experts E.

Dans un budget mémoire fixe, la perte du modèle MoE devient inférieure à celle du modèle dense correspondant lorsque la mémoire dépasse environ 0,25 Go. En augmentant davantage le nombre d'experts E, la perte continue de diminuer, mais les gains marginaux s'atténuent nettement dès que E atteint 8. Les expériences sur la granularité des experts g indiquent qu'une configuration d'experts plus fine est globalement supérieure, avec g=8 offrant un bon équilibre entre performance et coût d'entraînement ; lorsque g passe de 8 à 16, l'amélioration de la perte est inférieure à 0,01, mais la durée d'entraînement augmente d'environ 50 %. Sous un même budget de calcul, l'ajout d'experts partagés réduit davantage la perte du modèle.

Sur la base des résultats des expériences d'ablation, l'équipe de recherche a finalement adopté la configuration avec E=8, g=8 et des experts partagés, soit 60 experts de routage fine-grain, un routage Top-4 et un expert partagé, et a appliqué cette structure aux trois versions MobileMoE-S/M/L.

Meta

Illustration | Mise à l'échelle des modèles MoE dans des conditions optimales de calcul.

Meta

Figure | Efficacité d'entraînement de l'architecture MoE.

14 évaluations de base : établir une nouvelle frontière de Pareto côté périphérique

L'équipe de recherche a réévalué MobileMoE auprès de modèles tels que Gemma 3, SmolLM2, Qwen3.5, OLMo 2 et OLMoE-1B-7B dans un cadre unifié, sur 14 évaluations fondamentales réparties en cinq catégories : raisonnement commun, connaissance, science, lecture et raisonnement.

Meta

Figure | Trajectoire de pré-entraînement de MobileMoE.

Les résultats de la comparaison des modèles Base montrent que MobileMoE-M obtient une note moyenne supérieure à Qwen3.5 2B, et MobileMoE-L obtient une note moyenne supérieure à OLMoE-1B-7B, tout en nécessitant une taille de modèle plus réduite ; l'équipe de recherche a également indiqué que la version Base de MobileMoE-L dépasse déjà la version Instruct d'OLMoE-1B-7B en termes de note moyenne. En ce qui concerne la taille d'entraînement, MobileMoE utilise environ 6T de jetons de pré-entraînement, soit moins que les 9T de Llama 3.2 1B et les 11T de SmolLM2 1.7B. Dans la comparaison globale des modèles de fine-tuning sur instructions, la précision moyenne de MobileMoE-M est déjà proche de celle d'OLMoE-1B-7B, tout en présentant environ 60 % moins de paramètres actifs et de paramètres totaux.

Meta

Figure | Comparaison du modèle MobileMoE-Base.

Évaluation avancée : les avantages sont plus évidents pour les tâches de code et de mathématiques

Lors des évaluations avancées après le fine-tuning des instructions, MobileMoE se distingue davantage dans les tâches de codage et de mathématiques. Par exemple, MobileMoE-L obtient des scores moyens supérieurs à ceux de Qwen3.5 2B et OLMoE-1B-7B dans les deux évaluations de codage et de mathématiques. Toutefois, l'équipe de recherche souligne que Qwen3.5 2B reste toujours plus performant dans les capacités de suivi des instructions et de raisonnement knowledge-based.

Meta

Image | Comparaison des modèles Instruct sur des benchmarks avancés.

Quantification et déploiement sur appareil : maintien de la compétitivité après INT4, accélération notable sur smartphone

Après quantification, la note moyenne globale des versions MobileMoE-S/M/L est inférieure à celle de leurs versions BF16 respectives, mais la baisse se situe environ entre 2 et 3 points. Malgré cela, la version INT4 de MobileMoE-L surpasse toujours la version BF16 d'OLMoE-1B-7B Instruct.

L'équipe de recherche a également déployé MobileMoE sur le Samsung Galaxy S25 et l'iPhone 16 Pro pour des tests. Les résultats montrent que, dans des conditions de mémoire de poids INT4 comparables, MobileMoE-S accélère la phase d'entrée de 1,8 à 3,8 fois et la phase de génération token par token de 2,2 à 3,4 fois par rapport à MobileLLM-Pro.

En termes d'utilisation de la mémoire, sous les conditions de Samsung Galaxy S25, contexte 8K et prompt réel, le RSS maximal de MobileMoE-S est de 1,49 Go, inférieur aux 1,91 Go de MobileLLM-Pro.

Meta

Figure | Latence d'exécution côté périphérique.

Insuffisances et orientations futures

Actuellement, en matière de suivi d'instructions avancées ainsi que de connaissances et de raisonnement, MobileMoE après fine-tuning reste en retard par rapport à Qwen3.5 2B. L'équipe de recherche estime que cet écart pourrait être lié à un post-entraînement plus abouti. Pour réduire cet écart à l'avenir, les efforts sur le côté entraînement devront renforcer la distillation, le post-entraînement orienté raisonnement et l'extension multimodale.

En outre, l'équipe de recherche souligne que l'occupation mémoire des MoE sur smartphone varie en fonction du contenu d'entrée. Par rapport aux entrées de modèle fixe, les entrées réelles génèrent généralement une occupation mémoire plus élevée. Tester uniquement sur des entrées modélisées peut sous-estimer la pression mémoire dans les scénarios de déploiement réels. À l'avenir, pour évaluer plus précisément les performances mémoire réelles des MoE en périphérie, il sera nécessaire de s'appuyer sur davantage de données réelles issues de tests pratiques.

Dans le même temps, l'équipe de recherche a effectué des tests systématiques sur des appareils réels avec les backend CPU et GPU, mais la voie NPU reste à explorer. Par ailleurs, l'occupation mémoire à l'exécution de MoE est sensible au contenu d'entrée. À l'avenir, le routage dynamique, le pruning des experts, la quantification en précision mixte et le déploiement sur NPU mobile seront des pistes pour améliorer davantage l'efficacité côté périphérique.

Pour plus de détails techniques, veuillez consulter l'article original.

Cet article provient du compte officiel WeChat « Academic Headline » (ID : SciTouTiao), auteur : Xia Qiansi