Meta propone MobileMoE, logra un aumento de velocidad de 3.8x en el iPhone 16 Pro

En los últimos años, los modelos de expertos mixtos (MoE) se han utilizado ampliamente en modelos grandes en la nube. Sin embargo, en dispositivos móviles, los modelos de lenguaje grandes (LLM) aún se basan principalmente en arquitecturas densas. Anteriormente, las restricciones de memoria, potencia de cómputo y latencia en dispositivos móviles eran más estrictas, y no existía un estudio sistemático de MoE en el rango de parámetros activos por debajo de mil millones en el borde. Hoy en día, con el aumento de la capacidad de DRAM en los dispositivos móviles, MoE también comienza a tener la oportunidad de implementarse en smartphones.

MobileMoE, propuesto por el equipo de Meta, logró por primera vez una inferencia eficiente de MoE en smartphones comerciales. Los resultados muestran que, en 14 pruebas básicas, MobileMoE-S/M logró una precisión media igual o superior, utilizando solo entre 1/2 y 1/4 de la carga de cálculo de la línea base densa, con memoria similar. En pruebas reales, MobileMoE-S mostró el mayor aumento de velocidad en el GPU/MLX del iPhone 16 Pro, con una aceleración máxima de hasta 3.8 veces en la fase de entrada.

Meta

Enlace al artículo: https://arxiv.org/abs/2605.27358

El equipo de investigación también propuso una serie de escalas MoE en el lado del dispositivo para determinar estructuras de modelo más adecuadas para implementación en teléfonos móviles. MobileMoE establece un nuevo frente de Pareto para modelos de lenguaje grandes en el lado del dispositivo, logrando resultados superiores en el equilibrio entre precisión y costo computacional de inferencia.

Meta

Figura | MobileMoE establece un nuevo frente de Pareto para modelos de lenguaje grandes en el extremo.

¿Cómo se diseñó MobileMoE?

MobileMoE se puede entender así: es una clase de modelos de lenguaje MoE diseñados para implementación en dispositivos terminales. Sigue siendo un Transformer exclusivamente decoder, pero reemplaza las capas feedforward densas originales con capas MoE. El enrutador selecciona para cada token a unos pocos expertos con las puntuaciones más altas para participar en el cálculo, mientras que un experto compartido participa siempre. El proceso de entrenamiento completo se divide en cuatro etapas: preentrenamiento, entrenamiento intermedio, ajuste fino supervisado y entrenamiento con conciencia de cuantización.

Preentrenamiento: El equipo de investigación realizó el preentrenamiento con aproximadamente 6T de tokens de datos con licencia abierta, bajo una longitud de contexto de 2048, con datos principalmente provenientes de la web, y cubriendo también áreas como matemáticas, código, conocimiento y ciencia.

Entrenamiento a mediano plazo: El equipo de investigación amplió la longitud del contexto a 8192 y aumentó aún más la proporción de datos de alta calidad en conocimiento, código, matemáticas y ciencia, con un tamaño total de aproximadamente 500B tokens.

Fine-tuning supervisado (SFT): El equipo de investigación fine-tuneó MobileMoE-Base en un conjunto de datos de fine-tuning de instrucciones con licencia abierta que contiene más de 80 millones de muestras.

Entrenamiento con percepción de cuantización: El equipo de investigación cuantizó las capas lineales y los embeddings a INT4, cuantizó dinámicamente las activaciones a INT8 y mantuvo el router con precisión FP32.

Meta

Figura | Entrenamiento en cuatro fases de MobileMoE.

Resultados del experimento

Resultados del experimento de ablación

El equipo de investigación primero comparó tres variables de arquitectura: el número de expertos E, la granularidad de los expertos g y si se incluían expertos compartidos.

Meta

Figura | Escala de la cantidad de expertos E.

Bajo un presupuesto de memoria fijo, cuando la memoria supera aproximadamente 0.25 GB, la pérdida del modelo MoE comienza a ser inferior a la del modelo denso correspondiente. Al aumentar continuamente el número de expertos E, la pérdida disminuye aún más, pero cuando E alcanza 8, los rendimientos marginales se debilitan claramente. Los experimentos con la granularidad de expertos g indican que una configuración de expertos más fina es generalmente superior, siendo g=8 el punto óptimo que equilibra eficacia y costo de entrenamiento; cuando g aumenta de 8 a 16, la mejora en la pérdida es inferior a 0.01, pero el tiempo de entrenamiento aumenta aproximadamente un 50%. Bajo el mismo presupuesto computacional, la inclusión de expertos compartidos reduce aún más la pérdida del modelo.

Basándose en los resultados del experimento de ablación, el equipo de investigación finalmente adoptó la configuración con E=8, g=8 y expertos compartidos, es decir, 60 expertos de enrutamiento de granularidad fina, enrutamiento Top-4 y 1 experto compartido, y aplicó esta estructura a las tres versiones de MobileMoE-S/M/L.

Meta

Figura | Escalado de modelos MoE bajo condiciones óptimas de cálculo.

Meta

Figura | Eficiencia de entrenamiento de la arquitectura MoE.

14 evaluaciones básicas: establecer un nuevo frente de Pareto en el extremo del dispositivo

El equipo de investigación reevaluó MobileMoE junto con modelos como Gemma 3, SmolLM2, Qwen3.5, OLMo 2 y OLMoE-1B-7B en un entorno uniforme, en 14 evaluaciones básicas distribuidas en cinco categorías: razonamiento común, conocimiento, ciencia, lectura y razonamiento.

Meta

Figura | Trayectoria de preentrenamiento de MobileMoE.

Los resultados de la comparación de modelos base muestran que MobileMoE-M obtiene una puntuación promedio superior a Qwen3.5 2B, y MobileMoE-L supera a OLMoE-1B-7B, además de requerir un tamaño de modelo más pequeño; el equipo de investigación también señaló que la versión base de MobileMoE-L ya supera la puntuación promedio de la versión Instruct de OLMoE-1B-7B. En cuanto al tamaño de entrenamiento, MobileMoE utiliza aproximadamente 6T de tokens de preentrenamiento, menos que los 9T de Llama 3.2 1B y los 11T de SmolLM2 1.7B. En la comparación general de modelos de ajuste por instrucciones, la precisión promedio de MobileMoE-M ya se acerca a la de OLMoE-1B-7B, pero tiene aproximadamente un 60% menos de parámetros activos y totales.

Meta

Figura | Comparación del modelo MobileMoE-Base.

Evaluación avanzada: las ventajas en tareas de código y matemáticas son más evidentes

En evaluaciones avanzadas tras el ajuste por instrucciones, MobileMoE destaca más en tareas de código y matemáticas. Por ejemplo, MobileMoE-L obtiene puntajes promedio superiores a Qwen3.5 2B y OLMoE-1B-7B en ambas categorías de evaluación. Sin embargo, el equipo de investigación también señala que, en habilidades de seguimiento de instrucciones e inferencia de conocimiento, Qwen3.5 2B sigue siendo más fuerte.

Meta

Figura | Comparación de modelos Instruct en pruebas de referencia avanzadas.

Cuantificación y despliegue en el extremo: Mantiene competitividad tras INT4, con aceleración notable en dispositivos móviles

Tras la cuantización, la puntuación promedio general de MobileMoE-S/M/L disminuyó en comparación con sus respectivas versiones BF16, pero la reducción fue aproximadamente de 2 a 3 puntos. Aun así, la versión INT4 de MobileMoE-L aún supera a la versión BF16 de OLMoE-1B-7B Instruct.

El equipo de investigación también desplegó MobileMoE en Samsung Galaxy S25 e iPhone 16 Pro para pruebas. Los resultados mostraron que, bajo condiciones comparables de memoria de pesos INT4, MobileMoE-S acelera la fase de entrada entre 1.8 y 3.8 veces en comparación con MobileLLM-Pro, y la fase de generación por token entre 2.2 y 3.4 veces.

En cuanto al uso de memoria, bajo las condiciones de Samsung Galaxy S25, contexto de 8K y prompt real, el RSS pico de MobileMoE-S es de 1.49 GB, inferior a los 1.91 GB de MobileLLM-Pro.

Meta

Figura | Latencia del tiempo de ejecución en el extremo.

Deficiencias y dirección futura

Actualmente, en términos de seguimiento de instrucciones avanzadas y capacidades de conocimiento y razonamiento, MobileMoE tras el fine-tuning de instrucciones aún se encuentra por detrás de Qwen3.5 2B. El equipo de investigación considera que esta brecha podría estar relacionada con un post-entrenamiento más refinado. En el futuro, para reducir esta brecha, es necesario fortalecer en el lado de entrenamiento la distilación, el post-entrenamiento orientado al razonamiento y la extensión multimodal.

Además, el equipo de investigación señala que el uso de memoria de MoE en teléfonos móviles varía según el contenido de entrada. En comparación con entradas de plantilla fija, las entradas reales suelen generar un mayor consumo de memoria. Si se prueban únicamente con entradas estandarizadas, se podría subestimar la presión de memoria en escenarios de despliegue reales. En el futuro, para evaluar con mayor precisión el rendimiento real de memoria de MoE en el lado del dispositivo, aún se necesitan más datos de pruebas reales.

Al mismo tiempo, el equipo de investigación ya ha completado pruebas sistemáticas en dispositivos reales en los backends de CPU y GPU, pero la ruta NPU aún queda por explorar. Además, el consumo de memoria en tiempo de ejecución de MoE es sensible al contenido de entrada. En el futuro, la enrutamiento dinámico, el podado de expertos, la cuantización de precisión mixta y la implementación en NPU móviles serán direcciones clave para seguir mejorando la eficiencia en el lado del dispositivo.

Para más detalles técnicos, consulte el artículo original.

Este artículo proviene del canal de WeChat "Academic Headline" (ID: SciTouTiao), autor: Xia Qiansi