Meta предлагает MobileMoE, достигнув ускорения в 3,8 раза на iPhone 16 Pro

В последние годы модели с экспертом-смешанным подходом (MoE) широко применяются в облачных крупных моделях. Однако на мобильных устройствах крупные языковые модели (LLM) по-прежнему преимущественно используют плотные архитектуры. Ранее жесткие ограничения мобильных устройств по памяти, вычислительной мощности и задержке приводили к отсутствию системных исследований MoE в диапазоне менее миллиарда активных параметров на краю. Сегодня, с ростом объема DRAM в мобильных устройствах, MoE也开始 получать возможность развертывания на смартфонах.

MobileMoE, предложенный командой Meta, впервые обеспечил эффективный MoE-вывод на коммерческих смартфонах. Результаты показали, что MobileMoE-S/M при сопоставимом объеме памяти достигает средней точности, равной или превышающей точность плотной базовой модели, используя всего от 1/2 до 1/4 вычислительных ресурсов. В реальных тестах MobileMoE-S продемонстрировал наибольшее ускорение на GPU/MLX-бэкенде iPhone 16 Pro — до 3,8 раза на этапе ввода.

Мета

Ссылка на статью: https://arxiv.org/abs/2605.27358

Исследовательская команда также предложила набор масштабируемых закономерностей для MoE на стороне устройства, чтобы определить архитектуры моделей, более подходящие для развертывания на смартфонах. MobileMoE установил новую границу Парето для крупных языковых моделей на стороне устройства, достигнув более выгодного баланса между точностью и вычислительными затратами при выводе.

Мета

Рис. | MobileMoE устанавливает новую границу Парето для крупных языковых моделей на стороне устройства.

Как разработан MobileMoE?

MobileMoE можно понимать как класс моделей MoE, разработанных для развертывания на конечных устройствах. В целом это по-прежнему Transformer только с декодером, но плотные полносвязные слои заменены на слои MoE. Рутер выбирает для каждого токена небольшое количество экспертов с наивысшими оценками для участия в вычислениях, при этом один общий эксперт всегда участвует в вычислениях. Весь процесс обучения состоит из четырех этапов: предварительное обучение, промежуточное обучение, дообучение с наблюдением и обучение с учетом квантования.

Предварительное обучение: исследовательская команда провела предварительное обучение на данных с открытой лицензией объемом около 6 трлн токенов при длине контекста 2048; данные в основном представляют собой веб-контент, а также охватывают математику, код, знания и науку.

Среднесрочное обучение: исследовательская группа расширила длину контекста до 8192 и дополнительно увеличила долю высококачественных данных по знаниям, коду, математике и науке, общая размерность составляет около 500 млрд токенов.

Надзорное тонкое настройка (SFT): исследовательская команда произвела тонкую настройку MobileMoE-Base на наборе данных для тонкой настройки по инструкциям с открытой лицензией, содержащем более 80 миллионов образцов.

Квантовое обучение с восприятием: исследовательская группа квантовала линейные слои и вложения до INT4, динамически квантовала активации до INT8, а роутер оставила с точностью FP32.

Мета

Рис. | Четырехэтапное обучение MobileMoE.

Результаты эксперимента

Результаты абляционного эксперимента

Исследовательская команда сначала сравнила три переменные архитектуры: количество экспертов E, размер экспертов g и наличие общих экспертов.

Мета

Рис. | Масштабирование количества экспертов E.

При фиксированном бюджете памяти потери MoE начинают ниже соответствующей плотной модели, когда память превышает примерно 0,25 ГБ. Продолжение увеличения количества экспертов E далее снижает потери, но при увеличении E до 8 предельная отдача значительно ослабевает. Эксперименты с уровнем детализации экспертов g показывают, что более мелкая конфигурация экспертов в целом лучше, причем g=8 обеспечивает оптимальный баланс между эффективностью и вычислительными затратами на обучение; при увеличении g с 8 до 16 улучшение потерь составляет менее 0,01, но время обучения увеличивается примерно на 50%. При одинаковом вычислительном бюджете добавление общих экспертов далее снижает потери модели.

На основе результатов экспериментов по абляции исследовательская команда в конечном итоге выбрала конфигурацию с E=8, g=8 и общим экспертом: 60 мелкозернистых маршрутизируемых экспертов, маршрутизация Top-4 и один общий эксперт, и применила эту структуру к трем версиям MobileMoE-S/M/L.

Мета

Рисунок | Масштабирование MoE-моделей при оптимальных условиях расчета.

Мета

Рис. | Эффективность обучения архитектуры MoE.

14 базовых оценок: построение новой парето-границы на стороне устройства

Исследовательская команда повторно оценила MobileMoE вместе с моделями Gemma 3, SmolLM2, Qwen3.5, OLMo 2 и OLMoE-1B-7B в единых условиях на 14 базовых тестах, охватывающих пять категорий: общие рассуждения, знания, наука, чтение и логика.

Мета

Рис. | Траектория предварительного обучения MobileMoE.

Результаты сравнения базовых моделей показывают, что MobileMoE-M имеет более высокий средний балл, чем Qwen3.5 2B, а MobileMoE-L — выше, чем OLMoE-1B-7B, при этом требуемый размер модели меньше; исследовательская группа также отметила, что средний балл базовой версии MobileMoE-L уже превышает средний балл инструктивной версии OLMoE-1B-7B. В плане объема обучения MobileMoE использует около 6 трлн предварительно обученных токенов, что меньше, чем 9 трлн у Llama 3.2 1B и 11 трлн у SmolLM2 1.7B. В общем сравнении инструктивных моделей средняя точность MobileMoE-M уже приближается к OLMoE-1B-7B, но количество активных и общих параметров на 60% меньше.

Мета

Рис. | Сравнение модели MobileMoE-Base.

Продвинутый обзор: преимущества в коде и математических задачах более очевидны

В продвинутой оценке после инструкционной тонкой настройки MobileMoE демонстрирует более высокую производительность в задачах по программированию и математике. Например, MobileMoE-L показывает средние баллы выше, чем Qwen3.5 2B и OLMoE-1B-7B, в обоих тестах по программированию и математике. Однако исследовательская группа отмечает, что Qwen3.5 2B по-прежнему превосходит в способностях к выполнению инструкций и логическому выводу знаний.

Мета

Рисунок | Сравнение моделей Instruct на продвинутом бенчмарке.

Квантование и развертывание на краевых устройствах: сохранение конкурентоспособности после INT4, значительное ускорение на мобильных устройствах

После квантования общий средний балл MobileMoE-S/M/L немного снизился по сравнению с их версиями BF16, однако снижение составило примерно 2–3 балла. Тем не менее, версия MobileMoE-L с INT4 все еще показывает более высокие результаты, чем версия BF16 OLMoE-1B-7B Instruct.

Исследовательская команда также развернула MobileMoE на Samsung Galaxy S25 и iPhone 16 Pro для тестирования. Результаты показали, что при сопоставимых условиях памяти весов INT4 MobileMoE-S обеспечивает ускорение на 1,8–3,8 раза на этапе ввода и на 2,2–3,4 раза на этапе генерации по токенам по сравнению с MobileLLM-Pro.

По объему памяти, при условиях Samsung Galaxy S25, контекст 8K и реальные промпты, пиковый RSS MobileMoE-S составляет 1,49 ГБ, что ниже, чем 1,91 ГБ у MobileLLM-Pro.

Мета

Рис. | Задержка выполнения на стороне устройства.

Недостатки и направления развития

В настоящее время MobileMoE, прошедший инструкционную дообучку, все еще уступает Qwen3.5 2B в выполнении сложных инструкций, а также в знаниях и способности к рассуждению. Исследовательская группа считает, что этот разрыв может быть связан с более совершенной пост-обучкой. В будущем для сокращения этого разрыва необходимо усилить на стороне обучения дистилляцию, пост-обучку, ориентированную на рассуждение, а также мультимодальное расширение.

Кроме того, исследовательская группа отметила, что объем памяти, занимаемый MoE на мобильных устройствах, изменяется в зависимости от входных данных. По сравнению с фиксированными шаблонными входами, реальные входы обычно требуют большего объема памяти. Если тестирование проводится только на основе шаблонных входов, реальное давление на память при фактическом развертывании может быть недооценено. В будущем для более точной оценки реального поведения памяти MoE на конечных устройствах все еще необходимо использовать больше данных, полученных на основе реальных тестов.

В то же время исследовательская команда уже провела систематические тесты на реальных устройствах для CPU и GPU-бэкендов, но путь NPU еще предстоит изучить. Кроме того, использование памяти во время выполнения MoE чувствительно к входному содержимому. В будущем динамическая маршрутизация, обрезка экспертов, гибридная точность квантования и развертывание на NPU мобильных устройств станут направлениями для дальнейшего повышения эффективности на стороне устройства.

Более подробные технические детали см. в оригинальной статье.

Эта статья взята из официального аккаунта WeChat «Академический топ» (ID: SciTouTiao), автор: Ся Цяньси