Meta запропонувала MobileMoE, досягнувши прискорення в 3,8 раза на iPhone 16 Pro

Останнім часом моделі змішаних експертів (MoE) широко використовуються в хмарних великих моделях. Однак на мобільних пристроях великі мовні моделі (LLM) все ще переважно базуються на щільних архітектурах. Раніше обмеження мобільних пристроїв щодо пам’яті, обчислювальної потужності та затримки були більш суворими, і систематичні дослідження MoE в діапазоні менше мільярда активних параметрів на краю відсутні. Зараз, зі збільшенням об’єму DRAM у мобільних пристроях, MoE також отримує можливість розгортання на смартфонах.

MobileMoE, запропонований командою Meta, вперше забезпечив ефективне MoE-висновування на комерційних смартфонах. Результати показали, що MobileMoE-S/M при подібному обсязі пам’яті досягав рівної або навіть вищої середньої точності, використовуючи лише 1/2–1/4 обчислювальних ресурсів порівняно з щільною базовою моделлю. У реальних тестах MobileMoE-S продемонстрував найбільше прискорення на GPU/MLX-бекенді iPhone 16 Pro — до 3,8 разу на етапі введення.

Meta

Посилання на статтю: https://arxiv.org/abs/2605.27358

Дослідницька команда також запропонувала набір правил масштабування MoE на кінцевому пристрої для визначення архітектур моделей, що краще підходять для розгортання на смартфонах. MobileMoE встановив нову межу Парето для великих мовних моделей на кінцевому пристрої, досягнувши кращих результатів у балансі між точністю та обчислювальними витратами при висновку.

Meta

Малюнок | MobileMoE створив нову парето-межу для великих мовних моделей на кінцевих пристроях.

Як розроблений MobileMoE?

MobileMoE можна розуміти як клас моделей MoE, розроблених для розгортання на кінцевих пристроях. Загалом це decoder-only Transformer, але замість звичайних щільних повнозв’язних шарів використовуються шари MoE. Маршрутизатор вибирає для кожного токена лише декілька експертів з найвищими балами для обчислення, одночасно завжди задіюючи спільного експерта. Цілий процес навчання складається з чотирьох етапів: попереднє навчання, проміжне навчання, доналаштування з наглядом та навчання з урахуванням квантування.

Попереднє навчання: Дослідницька команда провела попереднє навчання з контекстною довжиною 2048, використовуючи близько 6 Тлн токенів даних з відкритою ліцензією, які в цілому зосереджені на веб-контенті, а також охоплюють математику, код, знання та науку.

Середньотермінове навчання: Дослідницька команда розширила довжину контексту до 8192 та далі збільшила частку якісних даних, таких як знання, код, математика та наука, загальний обсяг становить близько 500 млрд токенів.

Наглядна донастройка (SFT): Дослідницька команда доналаштувала MobileMoE-Base на відкритих даних для донастройки за інструкціями, що містять понад 80 мільйонів зразків.

Квантування з урахуванням сприйняття: дослідницька команда квантувала лінійні шари та вкладення до INT4, динамічно квантувала активації до INT8, а роутер залишила з точністю FP32.

Meta

Малюнок | Чотириетапна тренування MobileMoE.

Результати експерименту

Результати експериментів з абляцією

Дослідницька команда спочатку порівняла три змінні архітектури: кількість експертів E, розмірність експертів g, а також чи додавати спільні експерти.

Meta

Рис. | Масштабування кількості експертів E.

За фіксованого бюджету пам’яті втрата MoE починає бути нижчою за відповідну щільну модель, коли пам’ять перевищує приблизно 0,25 ГБ. Подальше збільшення кількості експертів E призводить до подальшого зниження втрати, але коли E досягає 8, гранична вигода значно зменшується. Експерименти з розміром експерта g показують, що більш дрібні конфігурації експертів є загалом кращими, причому g=8 досягає оптимального балансу між ефективністю та витратами на навчання; коли g збільшується з 8 до 16, покращення втрати становить менше ніж 0,01, але тривалість навчання зростає приблизно на 50%. За однакового обчислювального бюджету додавання спільних експертів далі знижує втрату моделі.

На основі результатів експериментів з абляцією дослідницька команда нарешті вибрала конфігурацію з E=8, g=8 та спільним експертом, а саме: 60 дрібнозернистих експертів для маршрутизації, маршрутизація Top-4 та 1 спільний експерт, і використала цю структуру для трьох версій MobileMoE-S/M/L.

Meta

Рисунок | Масштабування моделей MoE при оптимальних умовах обчислення.

Meta

Рисунок | Ефективність навчання архітектури MoE.

14 базових оцінок: створення нової парето-межі на кінцевому пристрої

Дослідницька команда повторно оцінила MobileMoE разом із моделями Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B у єдиних умовах на 14 базових тестах у п’яти категоріях: загальна логіка, знання, наука, читання та міркування.

Meta

Малюнок | Траєкторія попереднього навчання MobileMoE.

Результати порівняння базових моделей показують, що MobileMoE-M має вищий середній бал, ніж Qwen3.5 2B, а MobileMoE-L — вищий середній бал, ніж OLMoE-1B-7B, при цьому вимагає меншого розміру моделі; дослідницька команда також зазначила, що середній бал базової версії MobileMoE-L вже перевищує середній бал інструктивної версії OLMoE-1B-7B. Щодо розміру навчання, MobileMoE використовує приблизно 6 трлн токенів для попереднього навчання, що менше, ніж 9 трлн у Llama 3.2 1B і 11 трлн у SmolLM2 1.7B. У загальному порівнянні інструктивних моделей, середня точність MobileMoE-M вже наближається до OLMoE-1B-7B, але кількість активних та загальних параметрів на 60% менша.

Meta

Рис. | Порівняння моделі MobileMoE-Base.

Поглиблений огляд: переваги в коді та математичних завданнях виражені чіткіше

У просунутому оцінюванні після донастройки інструкцій MobileMoE показав кращі результати у завданнях з коду та математики. Наприклад, MobileMoE-L має вищий середній бал за обидві категорії — код та математика — порівняно з Qwen3.5 2B і OLMoE-1B-7B. Однак дослідницька команда зазначила, що Qwen3.5 2B все ще перевершує у здатностях дотримання інструкцій та логічного міркування.

Meta

Рисунок | Порівняння моделей Instruct на високому рівні тестування.

Квантування та розгортання на кінцевих пристроях: збереження конкурентоспроможності після INT4, значне прискорення на мобільних пристроях

Після квантування загальний середній бал MobileMoE-S/M/L трохи знизився порівняно з їхніми BF16 версіями, але зниження становить приблизно 2–3 бали. Незважаючи на це, INT4 версія MobileMoE-L все ще показує кращий результат, ніж BF16 версія OLMoE-1B-7B Instruct.

Дослідницька команда також розгорнула MobileMoE на Samsung Galaxy S25 та iPhone 16 Pro для тестування. Результати показали, що за порівнянних умов пам’яті ваг INT4, MobileMoE-S прискорює етап введення на 1,8–3,8 рази та етап генерації по токену на 2,2–3,4 рази порівняно з MobileLLM-Pro.

Щодо використання пам’яті, у умовах Samsung Galaxy S25, контексту 8K та реального запиту, пікове значення RSS для MobileMoE-S становить 1,49 ГБ, що менше, ніж 1,91 ГБ у MobileLLM-Pro.

Meta

Рис. | Затримка виконання на краю.

Недоліки та майбутні напрямки

Наразі MobileMoE, після інструкційної донастройки, все ще поступається Qwen3.5 2B у виконанні складніших інструкцій, а також у знаннях і міркуваннях. Дослідницька команда вважає, що ця різниця може бути пов’язана з більш досконалою післятренувальною обробкою. У майбутньому, щоб зменшити цю різницю, необхідно посилити на стороні навчання дистиляцію, післятренування, спрямоване на міркування, а також багатомодальні розширення.

Крім того, дослідницька команда зазначила, що використання пам’яті MoE на мобільних пристроях залежить від вхідних даних. У порівнянні з фіксованими шаблонними вхідними даними, реальні вхідні дані зазвичай призводять до більшого використання пам’яті. Якщо тестування проводити лише на основі шаблонних вхідних даних, можна недооцінити навантаження на пам’ять у реальних умовах розгортання. У майбутньому для більш точного оцінювання реального використання пам’яті MoE на кінцевих пристроях необхідно використовувати більше реальних тестових даних.

Тим часом дослідницька команда вже провела систематичні тести на реальних пристроях для CPU та GPU-бекендів, але шлях NPU ще залишається невивченим. Крім того, використання пам’яті під час виконання MoE чутливе до вхідного контенту. У майбутньому динамічна маршрутизація, обрізання експертів, гібридна точність квантування та розгортання на NPU мобільних пристроїв — це напрямки, які допоможуть подальше підвищити ефективність на кінцевих пристроях.

Більше технічних деталей дивіться в оригінальній статті.

Цей матеріал надійшов із微信-каналу «Академічний тітл» (ID: SciTouTiao), автор: Ся Цяньсі