Meta Mengusulkan MobileMoE, Mencapai Peningkatan Kecepatan 3,8x pada iPhone 16 Pro

Dalam beberapa tahun terakhir, model campuran ahli (MoE) telah secara luas digunakan dalam model besar berbasis cloud. Namun, di perangkat seluler, model bahasa besar (LLM) masih didominasi oleh arsitektur padat. Di masa lalu, batasan perangkat seluler terhadap memori, daya komputasi, dan latensi lebih ketat, sehingga MoE di rentang parameter aktif di bawah satu miliar tidak pernah diteliti secara sistematis. Kini, seiring peningkatan kapasitas DRAM pada perangkat seluler, MoE mulai memiliki peluang untuk dideploy di smartphone.

MobileMoE yang diusulkan oleh tim Meta pertama kali mencapai inferensi MoE yang efisien di smartphone komersial. Hasil menunjukkan bahwa pada 14 tes dasar, MobileMoE-S/M mencapai akurasi rata-rata yang setara atau bahkan lebih tinggi dengan hanya 1/2 hingga 1/4 jumlah komputasi inferensi dibandingkan baseline padat, dengan penggunaan memori yang serupa. Dalam pengujian nyata, MobileMoE-S menunjukkan peningkatan kecepatan paling signifikan pada GPU/MLX backend iPhone 16 Pro, dengan kecepatan maksimum hingga 3,8 kali lebih cepat pada tahap input.

Meta

Tautan makalah: https://arxiv.org/abs/2605.27358

Tim peneliti juga mengusulkan serangkaian aturan penskalaan MoE sisi perangkat untuk menentukan arsitektur model yang lebih cocok untuk penyebaran di ponsel. MobileMoE membangun pareto frontier baru untuk model bahasa besar sisi perangkat, mencapai hasil yang lebih unggul dalam kompromi antara akurasi dan biaya komputasi inferensi.

Meta

Gambar | MobileMoE membangun pareto frontier baru untuk model bahasa besar di sisi perangkat.

Bagaimana MobileMoE dirancang?

MobileMoE dapat dipahami sebagai jenis model bahasa MoE yang dirancang khusus untuk penyebaran di perangkat tepi. Secara keseluruhan tetap merupakan Transformer hanya decoder, tetapi lapisan feedforward padat asli diganti dengan lapisan MoE. Router akan memilih sejumlah kecil ahli dengan skor tertinggi untuk setiap token dalam perhitungan, sambil selalu melibatkan satu ahli bersama. Seluruh proses pelatihan terdiri dari empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan yang menyadari kuantisasi.

Pre-training: Tim peneliti melakukan pre-training dengan panjang konteks 2048 menggunakan sekitar 6T token data berlisensi terbuka, yang sebagian besar bersumber dari web, serta mencakup bidang matematika, kode, pengetahuan, dan ilmu pengetahuan.

Pelatihan menengah: Tim peneliti memperluas panjang konteks menjadi 8192 dan meningkatkan lebih lanjut proporsi data berkualitas tinggi seperti pengetahuan, kode, matematika, dan sains, dengan total ukuran sekitar 500B token.

Supervised Fine-Tuning (SFT): Tim peneliti melakukan fine-tuning terhadap MobileMoE-Base pada data fine-tuning instruksi lisensi terbuka yang mencakup lebih dari 80 juta sampel.

Quantization-aware training: Tim peneliti mengkuantisasi lapisan linear dan embedding ke INT4, mengkuantisasi dinamis aktivasi ke INT8, sementara router tetap mempertahankan presisi FP32.

Meta

Gambar | Empat tahap pelatihan MobileMoE.

Hasil eksperimen

Hasil eksperimen ablasi

Tim peneliti terlebih dahulu membandingkan tiga variabel arsitektur: jumlah pakar E, tingkat kehalusan pakar g, dan apakah akan menambahkan pakar bersama.

Meta

Gambar | Penskalaan jumlah ahli E.

Dalam anggaran memori tetap, ketika memori melebihi sekitar 0,25 GB, kerugian MoE mulai lebih rendah daripada model padat yang sesuai. Melanjutkan peningkatan jumlah ahli E, kerugian akan terus menurun, tetapi setelah E meningkat menjadi 8, manfaat marjinalnya jelas melemah. Eksperimen terhadap tingkat kehalusan ahli g menunjukkan bahwa konfigurasi ahli yang lebih halus secara keseluruhan lebih unggul, dengan g=8 mencapai keseimbangan terbaik antara kinerja dan biaya pelatihan; ketika g dinaikkan dari 8 menjadi 16, perbaikan kerugian kurang dari 0,01, tetapi durasi pelatihan meningkat sekitar 50%. Dalam anggaran komputasi yang sama, penambahan ahli bersama menyebabkan kerugian model turun lebih lanjut.

Berdasarkan hasil eksperimen ablasinya, tim peneliti akhirnya mengadopsi konfigurasi E=8, g=8 dengan pakar bersama, yaitu 60 pakar routing halus, routing Top-4, dan 1 pakar bersama, serta menerapkan struktur ini pada tiga versi MobileMoE-S/M/L.

Meta

Gambar | Skalabilitas model MoE dalam kondisi optimal.

Meta

Gambar | Efisiensi pelatihan arsitektur MoE.

14 evaluasi dasar: Membangun frontier Pareto sisi perangkat baru

Tim peneliti mengevaluasi ulang MobileMoE bersama model-model seperti Gemma 3, SmolLM2, Qwen3.5, OLMo 2, dan OLMoE-1B-7B dalam pengaturan seragam pada 14 uji dasar yang mencakup lima kategori: penalaran umum, pengetahuan, sains, membaca, dan penalaran.

Meta

Gambar | Jalur pra-pelatihan MobileMoE.

Hasil perbandingan model Base menunjukkan bahwa MobileMoE-M memiliki skor rata-rata lebih tinggi daripada Qwen3.5 2B, dan MobileMoE-L memiliki skor rata-rata lebih tinggi daripada OLMoE-1B-7B, dengan ukuran model yang lebih kecil; tim peneliti juga menyebutkan bahwa versi Base dari MobileMoE-L sudah memiliki skor rata-rata lebih tinggi daripada versi Instruct dari OLMoE-1B-7B. Dalam hal skala pelatihan, MobileMoE menggunakan sekitar 6T token pra-pelatihan, lebih sedikit daripada 9T dari Llama 3.2 1B dan 11T dari SmolLM2 1.7B. Dalam perbandingan keseluruhan model fine-tuning instruksi, akurasi rata-rata MobileMoE-M sudah mendekati OLMoE-1B-7B, tetapi parameter aktif dan totalnya masing-masing lebih rendah sekitar 60%.

Meta

Grafik | Perbandingan model MobileMoE-Base.

Ulasan lanjutan: Keunggulan pada tugas kode dan matematika lebih jelas

Dalam evaluasi lanjutan setelah fine-tuning instruksi, MobileMoE menunjukkan kinerja lebih unggul pada tugas kode dan matematika. Sebagai contoh, MobileMoE-L mencapai rata-rata skor lebih tinggi daripada Qwen3.5 2B dan OLMoE-1B-7B pada kedua evaluasi kode dan matematika. Namun, tim peneliti juga mencatat bahwa pada kemampuan mengikuti instruksi dan penalaran pengetahuan, Qwen3.5 2B tetap lebih kuat.

Meta

Gambar | Perbandingan model Instruct pada benchmark tingkat lanjut.

Quantifikasi dan penyebaran di perangkat tepi: Tetap kompetitif setelah INT4, kecepatan jelas meningkat di perangkat ponsel

Setelah kuantisasi, skor rata-rata keseluruhan MobileMoE-S/M/L menurun dibandingkan versi BF16 masing-masing, tetapi penurunannya sekitar 2 hingga 3 poin. Meskipun demikian, versi INT4 dari MobileMoE-L tetap berkinerja lebih baik daripada versi BF16 dari OLMoE-1B-7B Instruct.

Tim peneliti juga menerapkan MobileMoE pada Samsung Galaxy S25 dan iPhone 16 Pro untuk pengujian. Hasilnya menunjukkan bahwa, dalam kondisi memori bobot INT4 yang sebanding, MobileMoE-S mempercepat tahap input sebesar 1,8-3,8 kali dibandingkan MobileLLM-Pro, dan mempercepat tahap generasi token per token sebesar 2,2-3,4 kali.

Dalam hal penggunaan memori, di bawah kondisi Samsung Galaxy S25, konteks 8K, dan prompt asli, RSS puncak MobileMoE-S adalah 1,49 GB, lebih rendah dari 1,91 GB pada MobileLLM-Pro.

Meta

Gambar | Latensi runtime sisi perangkat.

Kekurangan dan Arah Masa Depan

Saat ini, dalam hal pemahaman perintah tingkat lanjut serta kemampuan pengetahuan dan penalaran, MobileMoE yang disesuaikan dengan perintah masih ketinggalan dari Qwen3.5 2B. Tim peneliti percaya bahwa kesenjangan ini mungkin terkait dengan pelatihan lanjutan yang lebih matang. Di masa depan, untuk menutup kesenjangan ini, sisi pelatihan perlu memperkuat distilasi, pelatihan lanjutan berorientasi penalaran, serta ekspansi multimodal.

Selain itu, tim peneliti menunjukkan bahwa penggunaan memori MoE di ponsel berubah sesuai dengan konten input. Dibandingkan dengan input template tetap, input nyata biasanya menghasilkan penggunaan memori yang lebih tinggi. Jika hanya mengandalkan input terstruktur untuk pengujian, tekanan memori dalam skenario penyebaran nyata mungkin akan diremehkan. Di masa depan, untuk mengevaluasi kinerja memori sebenarnya dari MoE di perangkat tepi secara lebih akurat, masih diperlukan lebih banyak data pengujian nyata.

Sementara itu, tim peneliti telah menyelesaikan pengujian sistematis pada perangkat nyata untuk backend CPU dan GPU, tetapi jalur NPU masih perlu dieksplorasi. Selain itu, penggunaan memori runtime MoE cukup sensitif terhadap konten input. Di masa depan, routing dinamis, pruning pakar, kuantisasi presisi campuran, serta penerapan NPU di perangkat seluler merupakan arah lanjutan untuk meningkatkan efisiensi sisi perangkat.

Untuk detail teknis lebih lanjut, lihat makalah aslinya.

Artikel ini berasal dari akun WeChat "Academic Headline" (ID: SciTouTiao), penulis: Xia Qiansi