Meta propõe o MobileMoE, alcançando aceleração de 3,8x no iPhone 16 Pro

Nos últimos anos, modelos de especialistas mistos (MoE) têm sido amplamente utilizados em grandes modelos na nuvem. No entanto, em dispositivos móveis, modelos de linguagem grandes (LLMs) ainda são predominantemente baseados em arquiteturas densas. No passado, as restrições de memória, capacidade de processamento e latência nos dispositivos móveis eram mais rigorosas, e não houve estudos sistemáticos sobre MoE no lado do dispositivo na faixa de menos de um bilhão de parâmetros ativos. Hoje, com o aumento da capacidade de DRAM nos dispositivos móveis, o MoE também começa a ter a oportunidade de ser implantado em smartphones.

O MobileMoE proposto pela equipe do Meta implementou pela primeira vez inferência MoE eficiente em smartphones comerciais. Os resultados mostraram que, em 14 testes básicos, o MobileMoE-S/M alcançou precisão média igual ou superior, utilizando apenas 1/2 a 1/4 da carga de cálculo de inferência da base densa, com memória semelhante. Nos testes práticos, o MobileMoE-S apresentou a aceleração mais significativa no GPU/MLX do iPhone 16 Pro, com velocidade máxima de até 3,8 vezes na fase de entrada.

Meta

Link do artigo: https://arxiv.org/abs/2605.27358

A equipe de pesquisa também propôs um conjunto de leis de escala MoE na borda para determinar estruturas de modelo mais adequadas para implantação em smartphones. O MobileMoE estabeleceu uma nova fronteira de Pareto para modelos de linguagem grandes na borda, obtendo resultados superiores no equilíbrio entre precisão e custo computacional de inferência.

Meta

Figura | MobileMoE estabelece uma nova fronteira de Pareto para modelos de linguagem grandes em dispositivos móveis.

Como o MobileMoE foi projetado?

MobileMoE pode ser entendido assim: é uma classe de modelos de linguagem MoE projetados para implantação em dispositivos de borda. O modelo ainda é um Transformer apenas com decoder, mas as camadas feedforward densas originais foram substituídas por camadas MoE. O roteador seleciona os poucos especialistas com as pontuações mais altas para cada token participarem do cálculo, enquanto um especialista compartilhado participa sempre. O processo de treinamento inteiro é dividido em quatro etapas: pré-treinamento, treinamento intermediário, fine-tuning supervisionado e treinamento com consciência de quantização.

Pré-treinamento: A equipe de pesquisa realizou o pré-treinamento com aproximadamente 6T de tokens em dados com licença aberta, utilizando um comprimento de contexto de 2048. Os dados são predominantemente da Web, abrangendo também áreas como matemática, código, conhecimento e ciência.

Treinamento de médio prazo: A equipe de pesquisa expandiu o comprimento do contexto para 8192 e aumentou ainda mais a proporção de dados de alta qualidade, como conhecimento, código, matemática e ciência, com um tamanho total de aproximadamente 500B tokens.

Ajuste fino supervisionado (SFT): A equipe de pesquisa finetuneou o MobileMoE-Base em um conjunto de dados de ajuste fino de instruções com licença aberta contendo mais de 80 milhões de amostras.

Treinamento com percepção de quantização: A equipe de pesquisa quantizou as camadas lineares e os embeddings para INT4, aplicou quantização dinâmica de ativação para INT8 e manteve o router com precisão FP32.

Meta

Figura | Treinamento em quatro fases do MobileMoE.

Resultados do experimento

Resultados do experimento de ablação

A equipe de pesquisa primeiro comparou três variáveis de arquitetura: o número de especialistas E, a granularidade dos especialistas g e se especialistas compartilhados foram incluídos.

Meta

Figura | Escala do número de especialistas E.

Sob um orçamento de memória fixo, quando a memória excede cerca de 0,25 GB, a perda do MoE começa a ser inferior à do modelo denso correspondente. Continuar aumentando o número de especialistas E reduz ainda mais a perda, mas quando E aumenta para 8, os ganhos marginais já se tornam claramente mais fracos. Experimentos com a granularidade dos especialistas g indicam que configurações mais granulares de especialistas são globalmente superiores, com g=8 alcançando um bom equilíbrio entre desempenho e custo de treinamento; quando g aumenta de 8 para 16, a melhoria na perda é inferior a 0,01, mas o tempo de treinamento aumenta cerca de 50%. Sob o mesmo orçamento computacional, a adição de especialistas compartilhados reduz ainda mais a perda do modelo.

Com base nos resultados dos experimentos de ablação, a equipe de pesquisa finalmente adotou a configuração com E=8, g=8 e especialistas compartilhados, ou seja, 60 especialistas de roteamento de granularidade fina, roteamento Top-4 e 1 especialista compartilhado, e aplicou essa estrutura às três versões MobileMoE-S/M/L.

Meta

Figura | Escalonamento de modelos MoE sob condições ótimas de cálculo.

Meta

Figura | Eficiência de treinamento da arquitetura MoE.

14 avaliações básicas: estabelecendo uma nova fronteira de Pareto na borda

A equipe de pesquisa reavaliou o MobileMoE junto com modelos como Gemma 3, SmolLM2, Qwen3.5, OLMo 2 e OLMoE-1B-7B em um conjunto unificado de 14 avaliações básicas nas cinco categorias de raciocínio comum, conhecimento, ciência, leitura e raciocínio.

Meta

Figura | Trajetória de pré-treinamento do MobileMoE.

Os resultados da comparação dos modelos Base mostram que o MobileMoE-M obteve pontuação média superior ao Qwen3.5 2B, e o MobileMoE-L obteve pontuação média superior ao OLMoE-1B-7B, com um tamanho de modelo necessário menor; a equipe de pesquisa também mencionou que a versão Base do MobileMoE-L já possui pontuação média superior à versão Instruct do OLMoE-1B-7B. Em termos de escala de treinamento, o MobileMoE utiliza cerca de 6T de tokens de pré-treinamento, menos que os 9T do Llama 3.2 1B e os 11T do SmolLM2 1.7B. Na comparação geral dos modelos de fine-tuning de instruções, a precisão média do MobileMoE-M já está próxima à do OLMoE-1B-7B, mas possui cerca de 60% menos parâmetros ativos e totais.

Meta

Figura | Comparação do modelo MobileMoE-Base.

Avaliação avançada: vantagens mais evidentes em tarefas de código e matemática

Em avaliações avançadas após o fine-tuning de instruções, o MobileMoE demonstra desempenho superior em tarefas de código e matemática. Por exemplo, o MobileMoE-L obteve pontuações médias mais altas em ambas as avaliações de código e matemática em comparação com o Qwen3.5 2B e o OLMoE-1B-7B. No entanto, a equipe de pesquisa também mencionou que, nas capacidades de seguimento de instruções e raciocínio de conhecimento, o Qwen3.5 2B ainda é mais forte.

Meta

Figura | Comparação de modelos Instruct em benchmarks avançados.

Quantificação e implantação na borda: mantém competitividade mesmo após INT4, com aceleração significativa em dispositivos móveis

Após a quantização, a pontuação média geral do MobileMoE-S/M/L diminuiu em relação às respectivas versões BF16, mas a redução foi de aproximadamente 2 a 3 pontos. Mesmo assim, a versão INT4 do MobileMoE-L ainda supera a versão BF16 do OLMoE-1B-7B Instruct.

A equipe de pesquisa também implantou o MobileMoE nos Samsung Galaxy S25 e iPhone 16 Pro para testes. Os resultados mostraram que, sob condições comparáveis de memória de peso INT4, o MobileMoE-S acelera a fase de entrada em 1,8 a 3,8 vezes e a fase de geração por token em 2,2 a 3,4 vezes em comparação com o MobileLLM-Pro.

Em termos de uso de memória, sob as condições de Samsung Galaxy S25, contexto de 8K e prompt real, o RSS pico do MobileMoE-S é de 1,49 GB, inferior aos 1,91 GB do MobileLLM-Pro.

Meta

Figura | Latência de tempo de execução na borda.

Limitações e direções futuras

Atualmente, em termos de seguimento de instruções avançadas e capacidades de conhecimento e raciocínio, o MobileMoE pós-treinado ainda está atrás do Qwen3.5 2B. A equipe de pesquisa acredita que essa lacuna pode estar relacionada a um pós-treinamento mais aprimorado. No futuro, para reduzir essa diferença, é necessário fortalecer na etapa de treinamento a distilação, o pós-treinamento voltado para raciocínio e a expansão multimodal.

Além disso, a equipe de pesquisa apontou que a ocupação de memória do MoE em dispositivos móveis varia conforme o conteúdo de entrada. Em comparação com entradas de modelo fixo, entradas reais geralmente resultam em maior ocupação de memória. Se os testes forem realizados apenas com entradas padronizadas, a pressão de memória em cenários de implantação real pode ser subestimada. Futuramente, para avaliar com maior precisão o desempenho real de memória do MoE em dispositivos de borda, ainda será necessário utilizar mais dados de medições reais.

Ao mesmo tempo, a equipe de pesquisa já realizou testes sistemáticos em dispositivos reais nos backends de CPU e GPU, mas a rota NPU ainda precisa ser explorada. Além disso, o consumo de memória em tempo de execução do MoE é sensível ao conteúdo de entrada. Futuramente, roteamento dinâmico, poda de especialistas, quantização de precisão mista e implantação em NPU móvel serão direções para continuar melhorando a eficiência no lado da extremidade.

Para mais detalhes técnicos, consulte o artigo original.

Este artigo é do canal oficial do WeChat "Academic Headline" (ID: SciTouTiao), autor: Xia Qiansi