Son yıllarda, karışık uzman modelleri (MoE), bulut tabanlı büyük modellerde yaygın olarak kullanılmıştır. Ancak mobil cihazlarda, büyük dil modelleri (LLM) hâlâ seyrek mimariyle devam etmektedir. Geçmişte, mobil cihazların bellek, hesaplama gücü ve gecikme kısıtlamaları daha sıkıydı ve milyarın altındaki aktif parametre aralığında mobil MoE için sistematik bir araştırma yapılmamıştı. Bugün, mobil cihazların DRAM kapasitesinin artmasıyla birlikte, MoE modellerinin akıllı telefonlara dağıtılması da mümkün hale gelmiştir.
Meta ekibi tarafından önerilen MobileMoE, ticari akıllı telefonlarda ilk kez verimli MoE çıkarımı gerçekleştirdi. Sonuçlar, 14 temel testte, MobileMoE-S/M'nin bellek kullanımının benzer olduğu durumlarda, yoğun temel modelin yalnızca 1/2 ila 1/4'ü kadar çıkarım hesaplama gücüyle eşit veya daha yüksek ortalama doğruluk oranlarına ulaştığını gösterdi. Gerçek zamanlı testlerde, MobileMoE-S'nin iPhone 16 Pro'nun GPU/MLX arka ucunda en belirgin hızlanma görüldü; giriş aşamasında en fazla 3,8 kat hızlanma sağlandı.

Makale bağlantısı: https://arxiv.org/abs/2605.27358
Araştırma ekibi, mobil cihazlara daha uygun model yapılarını belirlemek için bir uç MoE ölçekleme kuralı önerdi ve MobileMoE ile uç büyük dil modelleri için yeni bir Pareto öncelik çizgisi kurdu, doğruluk ile çıkarım hesaplama maliyeti arasında daha iyi bir denge sağladı.

Şekil | MobileMoE, uç taraf büyük dil modelleri için yeni bir Pareto öncülüğü kuruyor.
MobileMoE nasıl tasarlandı?
MobileMoE, uç tabanlı dağıtım için tasarlanmış bir MoE dil modeli türü olarak anlaşılabilir. Genel yapı hâlâ yalnızca decoder olan bir Transformer'dır, ancak eski yoğun ileri besleme katmanları MoE katmanlarıyla değiştirilmiştir. Röuter, her token için en yüksek puanı alan az sayıda uzmanı hesaplamaya dahil eder ve aynı zamanda her zaman hesaplamaya dahil olan paylaşılan bir uzman da mevcuttur. Tüm eğitim süreci dört adımdan oluşur: ön eğitim, orta dönem eğitimi, gözetimli ince ayar ve nicemleme algılayan eğitim.
Ön eğitim: Araştırma ekibi, 2048 bağlam uzunluğunda, yaklaşık 6T token açık lisanslı veri kullanarak ön eğitimi gerçekleştirdi; veri genel olarak web tabanlı olup, matematik, kodlama, bilgi ve bilim alanlarını da kapsıyor.
Orta vadeli eğitim: Araştırma ekibi, bağlam uzunluğunu 8192'ye çıkardı ve kaliteli verilerdeki bilgi, kod, matematik ve bilim oranını daha da artırdı; toplam boyut yaklaşık 500 milyar token.
Denetimli ince ayar (SFT): Araştırma ekibi, MobileMoE-Base'i 80 milyondan fazla örnekten oluşan açık lisanslı talimat ince ayar veri setinde ince ayarladı.
Kantitatif Algı Eğitimİ: Araştırma ekibi, doğrusal katmanları ve gömmeleri INT4'e, aktivasyonları INT8'e kantitleştirirken, router'ı FP32 hassasiyetinde bırakmıştır.

Şekil | MobileMoE'nin dört aşamalı eğitimi.
Deneysel sonuçlar
Ablasyon deney sonuçları
Araştırma ekibi, üç mimari değişkeni karşılaştırdı: uzman sayısı E, uzman tanelenmesi g ve paylaşılan uzmanların eklenip eklenmemesi.

Şekil | Uzman sayısı E'nin ölçeklenmesi.
Sabit bellek bütçesi altında, bellek yaklaşık 0,25 GB'ın üzerindeyken MoE'nin kaybı ilgili yoğun modele göre daha düşük olmaya başlıyor. Uzman sayısı E artırıldıkça kayıp daha da azalıyor, ancak E 8'e ulaştıktan sonra marjinal kazanımlar belirgin şekilde azalıyor. Uzman granülarity g üzerindeki deneyler, daha ince granülarityli uzman yapılarının genel olarak daha iyi olduğunu gösteriyor; g=8, performans ve eğitim maliyeti arasında iyi bir denge sağlıyor; g 8'den 16'ya çıkarıldığında kayıp 0,01'den az iyileşiyor ancak eğitim süresi yaklaşık %50 artıyor. Aynı hesaplama bütçesi altında paylaşılan uzmanlar eklenince model kaybı daha da düşüyor.
Ablasyon deneylerinin sonuçlarına dayanarak, araştırma ekibi son olarak E=8, g=8 ve paylaşılan uzmanlarla yapılandırmayı benimsemiştir; bu, 60 adet ince düzeyde rota uzmanı, Top-4 rota ve 1 adet paylaşılan uzman anlamına gelir ve bu yapı, MobileMoE-S/M/L sürümlerinin üçü için de kullanılmıştır.

Şekil|MoE modelinin en iyi koşullar altında ölçeklendirilmesi.

Şekil | MoE mimarisinin eğitim verimliliği.
14 temel değerlendirme: Yeni bir uç Pareto öncelikli sınırı oluşturmak
Araştırma ekibi, MobileMoE'yi Gemma 3, SmolLM2, Qwen3.5, OLMo 2 ve OLMoE-1B-7B gibi modellerle birlikte, mantıksal akıl yürütme, bilgi, bilim, okuma ve çıkarım olmak üzere beş kategorideki 14 temel değerlendirme testinde aynı koşullar altında yeniden değerlendirdi.

Şekil | MobileMoE'nin ön eğitim yolu.
Base model karşılaştırmaları, MobileMoE-M'nin ortalamasının Qwen3.5 2B'den daha yüksek olduğunu, MobileMoE-L'nin ortalamasının OLMoE-1B-7B'den daha yüksek olduğunu ve daha küçük bir model boyutu gerektirdiğini gösteriyor; araştırma ekibi, MobileMoE-L'nin Base sürümünün ortalamasının zaten OLMoE-1B-7B'nin Instruct sürümünden daha yüksek olduğunu da belirtti. Eğitim boyutunda, MobileMoE yaklaşık 6T ön eğitim tokeni kullanıyor, bu da Llama 3.2 1B'nin 9T'sinden ve SmolLM2 1.7B'nin 11T'sinden daha az. İnstrüksiyon fine-tuning modellerinin genel karşılaştırmasında, MobileMoE-M'nin ortalama doğruluğu OLMoE-1B-7B'ye yakın seviyede, ancak aktif parametre ve toplam parametre sayısı yaklaşık %60 daha az.

Şekil | MobileMoE-Base model karşılaştırması.
İleri Seviye Değerlendirme: Kod ve matematik görevlerinde avantaj daha belirgin
Yönlendirme ince ayarlı ileri değerlendirme sırasında MobileMoE, kod ve matematik görevlerinde daha iyi performans gösteriyor. MobileMoE-L örneğinde, kod ve matematik değerlendirme kategorilerindeki ortalama puanları Qwen3.5 2B ve OLMoE-1B-7B'den yüksektir. Ancak araştırma ekibi, yönlendirme takibi ve bilgi çıkarımı becerilerinde Qwen3.5 2B'nin hâlâ daha güçlü olduğunu belirtti.

Şekil | İleri düzey benchmark üzerinde Instruct modellerinin karşılaştırması.
Kantitatif ve uçta dağıtım: INT4 sonrası da rekabetçi kalır, mobil cihazlarda açıkça hızlanma
Kuantlaştırıldıktan sonra, MobileMoE-S/M/L'nin genel ortalama puanları ilgili BF16 sürümlerine göre düşmüş olsa da, bu düşüş yaklaşık 2 ila 3 puan arasındadır. Bununla birlikte, MobileMoE-L'nin INT4 sürümü hâlâ OLMoE-1B-7B Instruct'in BF16 sürümünden daha iyi performans göstermektedir.
Araştırma ekibi, MobileMoE'yi Samsung Galaxy S25 ve iPhone 16 Pro üzerinde test etmek için dağıttı. Sonuçlar, karşılaştırılabilir INT4 ağırlık belleği koşullarında, MobileMoE-S'nin MobileLLM-Pro'ya göre giriş aşamasında 1,8-3,8 kat, token bazlı üretim aşamasında 2,2-3,4 kat daha hızlı olduğunu gösterdi.
Samsung Galaxy S25, 8K bağlamı ve gerçek prompt koşullarında MobileMoE-S'in maksimum RSS kullanımı 1,49 GB olup, MobileLLM-Pro'nun 1,91 GB'ından düşüktür.

Şekil | Kenar tarafı çalışma zamanı gecikmesi.
Yetersizlik ve Gelecek Yönlendirme
Şu anda, daha ileri düzeyde komut takibi, bilgi ve muhakeme yeteneklerinde, instrüksiyon fine-tuned MobileMoE, Qwen3.5 2B'den geride kalıyor. Araştırma ekibi, bu farkın daha iyi geliştirilmiş post-training ile ilgili olabileceğini düşünüyor. Gelecekte bu farkı kapatmak için eğitim tarafında distilasyon, muhakemeye yönelik post-training ve çoklu modallik genişletmesi güçlendirilmelidir.
Ayrıca araştırma ekibi, MoE'nin telefonlardaki bellek kullanımının girdi içeriğine bağlı olarak değiştiğini belirtti. Sabit şablon girdilerine kıyasla, gerçek girdiler genellikle daha yüksek bellek kullanımı sağlar. Sadece şablonlu girdilerle yapılan testler, gerçek dağıtım senaryolarındaki bellek yükünü alt değerleyebilir. Gelecekte, uçta MoE'nin gerçek bellek performansını daha doğru değerlendirmek için daha fazla gerçek test verisine ihtiyaç duyulacaktır.
Aynı zamanda, araştırma ekibi CPU ve GPU arka uçlarında sistematik gerçek cihaz testlerini tamamladı, ancak NPU yolu hâlâ keşfedilmemiştir. Aynı zamanda, MoE'nin çalışma zamanı bellek tüketimi girdi içeriğine duyarlıdır. Gelecekte, dinamik rota, uzman filtreleme, karışık hassasiyetli kuantlaştırma ve mobil NPU dağıtımı, uç verimliliğini artırmak için takip edilecek yönlerdir.
Daha fazla teknik ayrıntı için orijinal makaleye bakın.
Bu yazı WeChat hesabından "Akademik Başlık" (ID: SciTouTiao) tarafından paylaşılmıştır, yazar: Xia Qiansi
