Dalam beberapa tahun terakhir, model campuran ahli (MoE) telah secara luas digunakan dalam model besar berbasis cloud. Namun, di perangkat seluler, model bahasa besar (LLM) masih didominasi oleh arsitektur padat. Di masa lalu, batasan perangkat seluler terhadap memori, daya komputasi, dan latensi lebih ketat, sehingga MoE di rentang parameter aktif di bawah satu miliar tidak pernah diteliti secara sistematis. Kini, seiring peningkatan kapasitas DRAM pada perangkat seluler, MoE mulai memiliki peluang untuk dideploy di smartphone.
MobileMoE yang diusulkan oleh tim Meta pertama kali mencapai inferensi MoE yang efisien di smartphone komersial. Hasil menunjukkan bahwa pada 14 tes dasar, MobileMoE-S/M mencapai akurasi rata-rata yang setara atau bahkan lebih tinggi dengan hanya 1/2 hingga 1/4 jumlah komputasi inferensi dibandingkan baseline padat, dengan penggunaan memori yang serupa. Dalam pengujian nyata, MobileMoE-S menunjukkan peningkatan kecepatan paling signifikan pada GPU/MLX backend iPhone 16 Pro, dengan kecepatan maksimum hingga 3,8 kali lebih cepat pada tahap input.

Tautan makalah: https://arxiv.org/abs/2605.27358
Tim peneliti juga mengusulkan serangkaian aturan penskalaan MoE sisi perangkat untuk menentukan arsitektur model yang lebih cocok untuk penyebaran di ponsel. MobileMoE membangun pareto frontier baru untuk model bahasa besar sisi perangkat, mencapai hasil yang lebih unggul dalam kompromi antara akurasi dan biaya komputasi inferensi.

Gambar | MobileMoE membangun pareto frontier baru untuk model bahasa besar di sisi perangkat.
Bagaimana MobileMoE dirancang?
MobileMoE dapat dipahami sebagai jenis model bahasa MoE yang dirancang khusus untuk penyebaran di perangkat tepi. Secara keseluruhan tetap merupakan Transformer hanya decoder, tetapi lapisan feedforward padat asli diganti dengan lapisan MoE. Router akan memilih sejumlah kecil ahli dengan skor tertinggi untuk setiap token dalam perhitungan, sambil selalu melibatkan satu ahli bersama. Seluruh proses pelatihan terdiri dari empat tahap: pra-pelatihan, pelatihan menengah, fine-tuning terawasi, dan pelatihan yang menyadari kuantisasi.
Pre-training: Tim peneliti melakukan pre-training dengan panjang konteks 2048 menggunakan sekitar 6T token data berlisensi terbuka, yang sebagian besar bersumber dari web, serta mencakup bidang matematika, kode, pengetahuan, dan ilmu pengetahuan.
Pelatihan menengah: Tim peneliti memperluas panjang konteks menjadi 8192 dan meningkatkan lebih lanjut proporsi data berkualitas tinggi seperti pengetahuan, kode, matematika, dan sains, dengan total ukuran sekitar 500B token.
Supervised Fine-Tuning (SFT): Tim peneliti melakukan fine-tuning terhadap MobileMoE-Base pada data fine-tuning instruksi lisensi terbuka yang mencakup lebih dari 80 juta sampel.
Quantization-aware training: Tim peneliti mengkuantisasi lapisan linear dan embedding ke INT4, mengkuantisasi dinamis aktivasi ke INT8, sementara router tetap mempertahankan presisi FP32.

Gambar | Empat tahap pelatihan MobileMoE.
Hasil eksperimen
Hasil eksperimen ablasi
Tim peneliti terlebih dahulu membandingkan tiga variabel arsitektur: jumlah pakar E, tingkat kehalusan pakar g, dan apakah akan menambahkan pakar bersama.

Gambar | Penskalaan jumlah ahli E.
Dalam anggaran memori tetap, ketika memori melebihi sekitar 0,25 GB, kerugian MoE mulai lebih rendah daripada model padat yang sesuai. Melanjutkan peningkatan jumlah ahli E, kerugian akan terus menurun, tetapi setelah E meningkat menjadi 8, manfaat marjinalnya jelas melemah. Eksperimen terhadap tingkat kehalusan ahli g menunjukkan bahwa konfigurasi ahli yang lebih halus secara keseluruhan lebih unggul, dengan g=8 mencapai keseimbangan terbaik antara kinerja dan biaya pelatihan; ketika g dinaikkan dari 8 menjadi 16, perbaikan kerugian kurang dari 0,01, tetapi durasi pelatihan meningkat sekitar 50%. Dalam anggaran komputasi yang sama, penambahan ahli bersama menyebabkan kerugian model turun lebih lanjut.
Berdasarkan hasil eksperimen ablasinya, tim peneliti akhirnya mengadopsi konfigurasi E=8, g=8 dengan pakar bersama, yaitu 60 pakar routing halus, routing Top-4, dan 1 pakar bersama, serta menerapkan struktur ini pada tiga versi MobileMoE-S/M/L.

Gambar | Skalabilitas model MoE dalam kondisi optimal.

Gambar | Efisiensi pelatihan arsitektur MoE.
14 evaluasi dasar: Membangun frontier Pareto sisi perangkat baru
Tim peneliti mengevaluasi ulang MobileMoE bersama model-model seperti Gemma 3, SmolLM2, Qwen3.5, OLMo 2, dan OLMoE-1B-7B dalam pengaturan seragam pada 14 uji dasar yang mencakup lima kategori: penalaran umum, pengetahuan, sains, membaca, dan penalaran.

Gambar | Jalur pra-pelatihan MobileMoE.
Hasil perbandingan model Base menunjukkan bahwa MobileMoE-M memiliki skor rata-rata lebih tinggi daripada Qwen3.5 2B, dan MobileMoE-L memiliki skor rata-rata lebih tinggi daripada OLMoE-1B-7B, dengan ukuran model yang lebih kecil; tim peneliti juga menyebutkan bahwa versi Base dari MobileMoE-L sudah memiliki skor rata-rata lebih tinggi daripada versi Instruct dari OLMoE-1B-7B. Dalam hal skala pelatihan, MobileMoE menggunakan sekitar 6T token pra-pelatihan, lebih sedikit daripada 9T dari Llama 3.2 1B dan 11T dari SmolLM2 1.7B. Dalam perbandingan keseluruhan model fine-tuning instruksi, akurasi rata-rata MobileMoE-M sudah mendekati OLMoE-1B-7B, tetapi parameter aktif dan totalnya masing-masing lebih rendah sekitar 60%.

Grafik | Perbandingan model MobileMoE-Base.
Ulasan lanjutan: Keunggulan pada tugas kode dan matematika lebih jelas
Dalam evaluasi lanjutan setelah fine-tuning instruksi, MobileMoE menunjukkan kinerja lebih unggul pada tugas kode dan matematika. Sebagai contoh, MobileMoE-L mencapai rata-rata skor lebih tinggi daripada Qwen3.5 2B dan OLMoE-1B-7B pada kedua evaluasi kode dan matematika. Namun, tim peneliti juga mencatat bahwa pada kemampuan mengikuti instruksi dan penalaran pengetahuan, Qwen3.5 2B tetap lebih kuat.

Gambar | Perbandingan model Instruct pada benchmark tingkat lanjut.
Quantifikasi dan penyebaran di perangkat tepi: Tetap kompetitif setelah INT4, kecepatan jelas meningkat di perangkat ponsel
Setelah kuantisasi, skor rata-rata keseluruhan MobileMoE-S/M/L menurun dibandingkan versi BF16 masing-masing, tetapi penurunannya sekitar 2 hingga 3 poin. Meskipun demikian, versi INT4 dari MobileMoE-L tetap berkinerja lebih baik daripada versi BF16 dari OLMoE-1B-7B Instruct.
Tim peneliti juga menerapkan MobileMoE pada Samsung Galaxy S25 dan iPhone 16 Pro untuk pengujian. Hasilnya menunjukkan bahwa, dalam kondisi memori bobot INT4 yang sebanding, MobileMoE-S mempercepat tahap input sebesar 1,8-3,8 kali dibandingkan MobileLLM-Pro, dan mempercepat tahap generasi token per token sebesar 2,2-3,4 kali.
Dalam hal penggunaan memori, di bawah kondisi Samsung Galaxy S25, konteks 8K, dan prompt asli, RSS puncak MobileMoE-S adalah 1,49 GB, lebih rendah dari 1,91 GB pada MobileLLM-Pro.

Gambar | Latensi runtime sisi perangkat.
Kekurangan dan Arah Masa Depan
Saat ini, dalam hal pemahaman perintah tingkat lanjut serta kemampuan pengetahuan dan penalaran, MobileMoE yang disesuaikan dengan perintah masih ketinggalan dari Qwen3.5 2B. Tim peneliti percaya bahwa kesenjangan ini mungkin terkait dengan pelatihan lanjutan yang lebih matang. Di masa depan, untuk menutup kesenjangan ini, sisi pelatihan perlu memperkuat distilasi, pelatihan lanjutan berorientasi penalaran, serta ekspansi multimodal.
Selain itu, tim peneliti menunjukkan bahwa penggunaan memori MoE di ponsel berubah sesuai dengan konten input. Dibandingkan dengan input template tetap, input nyata biasanya menghasilkan penggunaan memori yang lebih tinggi. Jika hanya mengandalkan input terstruktur untuk pengujian, tekanan memori dalam skenario penyebaran nyata mungkin akan diremehkan. Di masa depan, untuk mengevaluasi kinerja memori sebenarnya dari MoE di perangkat tepi secara lebih akurat, masih diperlukan lebih banyak data pengujian nyata.
Sementara itu, tim peneliti telah menyelesaikan pengujian sistematis pada perangkat nyata untuk backend CPU dan GPU, tetapi jalur NPU masih perlu dieksplorasi. Selain itu, penggunaan memori runtime MoE cukup sensitif terhadap konten input. Di masa depan, routing dinamis, pruning pakar, kuantisasi presisi campuran, serta penerapan NPU di perangkat seluler merupakan arah lanjutan untuk meningkatkan efisiensi sisi perangkat.
Untuk detail teknis lebih lanjut, lihat makalah aslinya.
Artikel ini berasal dari akun WeChat "Academic Headline" (ID: SciTouTiao), penulis: Xia Qiansi
