Meta mencadangkan MobileMoE, mencapai peningkatan kelajuan 3.8x pada iPhone 16 Pro

Dalam beberapa tahun terakhir, model pakar campuran (MoE) telah digunakan secara meluas dalam model besar berbasis awan. Namun, di peranti mudah alih, model bahasa besar (LLM) masih berfokus pada arsitektur padat. Sebelum ini, batasan peranti mudah alih terhadap memori, kuasa pengiraan, dan latensi lebih ketat, dan MoE sisi peranti dalam lingkungan parameter aktif di bawah satu miliar tidak pernah dikaji secara sistemik. Kini, dengan peningkatan kapasiti DRAM pada peranti mudah alih, MoE mulai mempunyai peluang untuk dilaksanakan pada telefon pintar.

MobileMoE yang dicadangkan oleh pasukan Meta berjaya mencapai inferens MoE yang cekap pertama kali di telefon pintar komersial. Keputusan menunjukkan bahawa MobileMoE-S/M mencapai ketepatan purata yang setara atau lebih tinggi dengan hanya 1/2 hingga 1/4 jumlah pengiraan inferens berbanding garis dasar padat, pada penggunaan memori yang serupa dalam 14 ujian asas. Dalam ujian sebenar, MobileMoE-S menunjukkan peningkatan kelajuan paling ketara pada GPU/MLX backend iPhone 16 Pro, dengan peningkatan kelajuan sehingga 3.8 kali pada peringkat input.

Meta

Pautan kertas: https://arxiv.org/abs/2605.27358

Pasukan penyelidik juga mengusulkan satu pola penskalaan MoE sisi peranti untuk menentukan struktur model yang lebih sesuai untuk penghantaran pada telefon. MobileMoE membina sempadan Pareto baharu untuk model bahasa besar sisi peranti, mencapai hasil yang lebih baik dalam kompromi antara ketepatan dan kos pengiraan inferens.

Meta

Gambar | MobileMoE membina had Pareto baharu untuk model bahasa besar di sisi peranti.

Bagaimana MobileMoE direka?

MobileMoE boleh difahami sebagai sejenis model bahasa MoE yang direka untuk penyebaran di peranti hujung. Secara keseluruhan, ia masih merupakan Transformer hanya decoder, tetapi lapisan feedforward padat asal telah digantikan dengan lapisan MoE. Router akan memilih sedikit pakar dengan skor tertinggi untuk setiap token untuk terlibat dalam pengiraan, sambil satu pakar berkongsi sentiasa terlibat. Proses latihan keseluruhan dibahagikan kepada empat langkah: pra-latihan, latihan pertengahan, penyesuaian halus berpandukan pengawasan, dan latihan sedar kuantisasi.

Pra-pelatihan: Pasukan penyelidik telah melakukan pra-pelatihan dengan panjang konteks 2048 menggunakan sekitar 6T token data berlesen terbuka, yang secara keseluruhan berfokus pada web, sambil merangkumi bidang-bidang seperti matematik, kod, pengetahuan, dan sains.

Latihan jangka menengah: Pasukan penyelidik memperluaskan panjang konteks kepada 8192 dan meningkatkan lagi peratusan data berkualiti tinggi seperti pengetahuan, kod, matematik, dan sains, dengan jumlah saiz sekitar 500B token.

Penyempurnaan yang diawasi (SFT): Pasukan penyelidik telah menyempurnakan MobileMoE-Base pada data penyempurnaan arahan lesen terbuka yang melebihi 80 juta sampel.

Latihan kesedaran kuantisasi: Pasukan penyelidik mengkuantisasikan lapisan linear dan embedding ke INT4, mengkuantisasikan dinamik pengaktifan ke INT8, sementara router kekal pada ketepatan FP32.

Meta

Rajah | Empat peringkat latihan MobileMoE.

Keputusan eksperimen

Hasil eksperimen ablasi

Tim penyelidik terlebih dahulu membandingkan tiga pemboleh ubah arsitektur: bilangan pakar E, ketepatan pakar g, dan sama ada pakar bersama ditambahkan atau tidak.

Meta

Gambar | Penskalaan jumlah pakar E.

Dalam anggaran memori tetap, apabila memori melebihi kira-kira 0.25GB, kehilangan MoE bermula lebih rendah berbanding model padat yang sepadan. Peningkatan berterusan bilangan pakar E akan menurunkan kehilangan lebih lanjut, tetapi apabila E meningkat kepada 8, faedah marjinal sudah jelas melemah. Eksperimen terhadap ketepatan pakar g menunjukkan bahawa konfigurasi pakar yang lebih halus secara keseluruhan lebih baik, dengan g=8 mencapai keseimbangan terbaik antara keberkesanan dan kos latihan; apabila g meningkat dari 8 ke 16, peningkatan kehilangan kurang daripada 0.01, tetapi masa latihan meningkat sebanyak kira-kira 50%. Dalam anggaran pengiraan yang sama, penambahan pakar berkongsi menyebabkan kehilangan model menurun lebih lanjut.

Berdasarkan keputusan eksperimen ablasi, pasukan penyelidik akhirnya mengambil konfigurasi E=8, g=8 dengan pakar berkongsi, iaitu 60 pakar penghalaan halus, penghalaan Top-4, dan 1 pakar berkongsi, serta menggunakannya untuk tiga versi MobileMoE-S/M/L.

Meta

Gambar｜ Penskalaan model MoE dalam keadaan optimum.

Meta

Rajah｜Kecekapan latihan arsitektur MoE.

14 penilaian asas: Membina sempadan Pareto sisi端 baru

Pasukan penyelidik menilai semula MobileMoE bersama model-model seperti Gemma 3, SmolLM2, Qwen3.5, OLMo 2, dan OLMoE-1B-7B dalam satu set up yang seragam, menguji lima kategori asas: penalaran akal sehat, pengetahuan, sains, membaca, dan penalaran, dengan jumlah 14 ujian.

Meta

Rajah | Jejak pra-latihan MobileMoE.

Hasil perbandingan model Base menunjukkan bahawa MobileMoE-M mendapat skor purata lebih tinggi berbanding Qwen3.5 2B, dan MobileMoE-L mendapat skor purata lebih tinggi berbanding OLMoE-1B-7B, sambil memerlukan saiz model yang lebih kecil; pasukan penyelidik juga menyatakan bahawa versi Base MobileMoE-L sudah mendapat skor purata lebih tinggi berbanding versi Instruct OLMoE-1B-7B. Dari segi skala latihan, MobileMoE menggunakan sekitar 6T token pra-latihan, kurang daripada 9T pada Llama 3.2 1B dan 11T pada SmolLM2 1.7B. Dalam perbandingan keseluruhan model fine-tuning arahan, purata ketepatan MobileMoE-M sudah hampir setara dengan OLMoE-1B-7B, tetapi parameter aktif dan jumlah parameter masing-masing lebih rendah sebanyak kira-kira 60%.

Meta

Rajah｜Perbandingan model MobileMoE-Base.

Ulasan lanjutan: Kelebihan dalam tugas kod dan matematik lebih jelas

Dalam penilaian lanjutan selepas penyesuaian arahan, MobileMoE menunjukkan prestasi yang lebih unggul dalam tugas kod dan matematik. Sebagai contoh, MobileMoE-L memperoleh purata skor yang lebih tinggi daripada Qwen3.5 2B dan OLMoE-1B-7B dalam kedua-dua penilaian kod dan matematik. Namun, pasukan penyelidik juga menyatakan bahawa Qwen3.5 2B masih lebih kuat dalam kemampuan mengikuti arahan dan penalaran pengetahuan.

Meta

Gambar | Perbandingan model Instruct pada ujian rujukan tinggi.

Kuantisasi dan penghantaran di sisi peranti: Mengekalkan daya saing selepas INT4, pantas jelas di peranti telefon

Selepas kuantisasi, skor purata keseluruhan MobileMoE-S/M/L menurun berbanding versi BF16 masing-masing, tetapi penurunannya kira-kira antara 2 hingga 3 mata. Walaupun begitu, versi INT4 MobileMoE-L masih menunjukkan prestasi yang lebih tinggi berbanding versi BF16 OLMoE-1B-7B Instruct.

Pasukan penyelidik juga telah menghantar MobileMoE ke Samsung Galaxy S25 dan iPhone 16 Pro untuk ujian. Keputusan menunjukkan bahawa, dalam keadaan ingatan bobot INT4 yang sepadan, MobileMoE-S menghasilkan peningkatan kelajuan 1.8-3.8 kali ganda pada peringkat input dan 2.2-3.4 kali ganda pada peringkat penghasilan token demi token berbanding MobileLLM-Pro.

Dalam hal penggunaan memori, di bawah kondisi Samsung Galaxy S25, konteks 8K, dan prompt sebenarnya, RSS puncak MobileMoE-S adalah 1.49GB, lebih rendah daripada 1.91GB MobileLLM-Pro.

Meta

Rajah｜Latensi masa berjalan di sisi peranti.

Kekurangan dan Arah Masa Depan

Sekarang, dalam hal pengikutan arahan yang lebih tinggi serta kemampuan pengetahuan dan penalaran, MobileMoE yang disesuaikan arahan masih tertinggal di belakang Qwen3.5 2B. Pasukan penyelidik percaya bahawa jurang ini mungkin berkaitan dengan latihan selepas yang lebih sempurna. Di masa depan, untuk mengurangkan jurang ini, sisi latihan perlu memperkuat pendidikan distilasi, latihan selepas yang berfokus pada penalaran, serta ekspansi multimodal.

Selain itu, pasukan penyelidik menunjukkan bahawa penggunaan memori MoE pada telefon bimbit berubah mengikut kandungan input. Berbanding input templat tetap, input sebenar biasanya membawa penggunaan memori yang lebih tinggi. Jika hanya berdasarkan input templat untuk ujian, tekanan memori dalam persekitaran pelaksanaan sebenar mungkin dianggap terlalu rendah. Di masa depan, untuk menilai prestasi memori sebenar MoE di sisi peranti dengan lebih tepat, masih diperlukan data ujian sebenar yang lebih banyak.

Sementara itu, pasukan penyelidik telah menyelesaikan pengujian sistemik di peranti sebenar pada latar belakang CPU dan GPU, tetapi jalan NPU masih perlu dieksplorasi. Pada masa yang sama, penggunaan memori runtime MoE adalah sensitif terhadap kandungan input. Di masa depan, penerusan peningkatan kecekapan sisi peranti akan merangkumi penerusan penyesuaian dinamik, pemangkasan pakar, kuantisasi ketepatan campuran, dan pelaksanaan NPU mudah alih.

Untuk butiran teknikal lanjut, rujuk kertas asal.

Artikel ini berasal daripada akaun微信公众号 "Academic Headline" (ID: SciTouTiao), penulis: Xia Qiansi