ในช่วงไม่กี่ปีที่ผ่านมา โมเดลผู้เชี่ยวชาญแบบผสม (MoE) ได้รับการใช้งานอย่างแพร่หลายในโมเดลขนาดใหญ่บนคลาวด์ แต่บนอุปกรณ์มือถือ โมเดลภาษาขนาดใหญ่ (LLM) ยังคงใช้โครงสร้างหนาแน่นเป็นหลัก ในอดีต อุปกรณ์มือถือมีข้อจำกัดที่เข้มงวดกว่าในเรื่องหน่วยความจำ กำลังการประมวลผล และความล่าช้า จึงยังไม่มีการศึกษาอย่างเป็นระบบเกี่ยวกับ MoE ที่มีพารามิเตอร์ใช้งานน้อยกว่าพันล้านตัวบนอุปกรณ์ปลายทาง ปัจจุบัน ด้วยการเพิ่มขึ้นของความจุ DRAM บนอุปกรณ์เคลื่อนที่ MoE จึงเริ่มมีโอกาสถูกนำไปใช้งานบนสมาร์ทโฟน
MobileMoE ที่ทีม Meta นำเสนอ ประสบความสำเร็จในการดำเนินการสรุปผล MoE อย่างมีประสิทธิภาพครั้งแรกบนสมาร์ทโฟนเชิงพาณิชย์ ผลลัพธ์แสดงว่า MobileMoE-S/M สามารถบรรลุความแม่นยำเฉลี่ยเท่ากันหรือสูงกว่า ด้วยปริมาณการคำนวณในการสรุปผลเพียง 1/2 ถึง 1/4 ของโมเดลหนาแน่นพื้นฐาน ในขณะที่ใช้หน่วยความจำใกล้เคียงกัน ในการทดสอบจริง MobileMoE-S แสดงการเร่งความเร็วอย่างเด่นชัดที่สุดบน GPU/MLX backend ของ iPhone 16 Pro โดยสามารถเร่งความเร็วได้สูงสุดถึง 3.8 เท่าในขั้นตอนการป้อนข้อมูล

ลิงก์เอกสารวิจัย: https://arxiv.org/abs/2605.27358
ทีมวิจัยยังเสนอแนวทางการปรับขนาด MoE ด้านขอบ เพื่อกำหนดโครงสร้างโมเดลที่เหมาะสมกว่าสำหรับการปรับใช้บนโทรศัพท์มือถือ MobileMoE ได้สร้างขอบเขตแพเรโตใหม่สำหรับโมเดลภาษาขนาดใหญ่ด้านขอบ และบรรลุผลลัพธ์ที่ดีกว่าในการประนีประนอมระหว่างความแม่นยำกับค่าใช้จ่ายในการคำนวณแบบอินเฟอเรนซ์

รูป|MobileMoE ได้สร้างขอบเขตแพเรโตใหม่สำหรับโมเดลภาษาขนาดใหญ่บนอุปกรณ์ปลายทาง
MobileMoE ถูกออกแบบมาอย่างไร?
MobileMoE สามารถเข้าใจได้ว่าเป็นประเภทของโมเดลภาษา MoE ที่ออกแบบมาสำหรับการปรับใช้บนอุปกรณ์ปลายทาง โครงสร้างโดยรวมยังคงเป็น Transformer แบบ decoder-only แต่แทนที่ชั้นฟีดฟอร์เวิร์ดหนาแน่นเดิมด้วยชั้น MoE ตัวจัดเส้นทางจะเลือกผู้เชี่ยวชาญไม่กี่คนที่ได้คะแนนสูงสุดสำหรับแต่ละ token เพื่อร่วมในการคำนวณ พร้อมกับมีผู้เชี่ยวชาญที่ใช้ร่วมกันซึ่งจะเข้าร่วมตลอดเวลา กระบวนการฝึกทั้งหมดแบ่งเป็นสี่ขั้นตอน: การฝึกเบื้องต้น การฝึกช่วงกลาง การปรับแต่งด้วยการควบคุม และการฝึกที่รับรู้การควอนตัม
การฝึกล่วงหน้า: ทีมวิจัยได้ฝึกล่วงหน้าด้วยความยาวบริบท 2048 โดยใช้ข้อมูลใบอนุญาตเปิดประมาณ 6 ล้านโทเค็น ซึ่งข้อมูลส่วนใหญ่เป็นเว็บ พร้อมครอบคลุมด้านคณิตศาสตร์ รหัส ความรู้ และวิทยาศาสตร์
การฝึกในระยะกลาง: ทีมวิจัยได้ขยายความยาวบริบทเป็น 8192 และเพิ่มสัดส่วนของข้อมูลคุณภาพสูง เช่น ความรู้ โค้ด คณิตศาสตร์ และวิทยาศาสตร์ ขนาดรวมประมาณ 500B token
การปรับแต่งด้วยการควบคุม (SFT): ทีมวิจัยได้ปรับแต่ง MobileMoE-Base บนชุดข้อมูลการปรับแต่งคำสั่งที่มีใบอนุญาตเปิดกว้างมากกว่า 80 ล้านตัวอย่าง
การฝึกอบรมที่รับรู้การควอนตัม: ทีมวิจัยได้ควอนตัมเลเยอร์เชิงเส้นและ embedding ไปยัง INT4 ควอนตัมไดนามิกของกิจกรรมไปยัง INT8 และรักษาความแม่นยำของ router ไว้ที่ FP32

รูป|การฝึกอบรมสี่ขั้นตอนของ MobileMoE
ผลการทดลอง
ผลการทดลองการละลาย
ทีมวิจัยเปรียบเทียบตัวแปรสถาปัตยกรรมสามตัว: จำนวนผู้เชี่ยวชาญ E, ความละเอียดของผู้เชี่ยวชาญ g และการเพิ่มผู้เชี่ยวชาญร่วม

รูป|การปรับขนาดจำนวนผู้เชี่ยวชาญ E
ภายใต้งบประมาณหน่วยความจำที่คงที่ เมื่อหน่วยความจำสูงกว่าประมาณ 0.25GB ค่าการสูญเสียของ MoE จะเริ่มต่ำกว่าโมเดลหนาแน่นที่เกี่ยวข้อง การเพิ่มจำนวนผู้เชี่ยวชาญ E ต่อไปจะทำให้ค่าการสูญเสียลดลงเพิ่มเติม แต่เมื่อ E เพิ่มขึ้นถึง 8 ผลประโยชน์เพิ่มเติมจะลดลงอย่างชัดเจน การทดลองกับความละเอียดของผู้เชี่ยวชาญ g แสดงให้เห็นว่าการตั้งค่าผู้เชี่ยวชาญที่ละเอียดกว่ามีประสิทธิภาพโดยรวมดีกว่า โดย g=8 ให้สมดุลที่ดีระหว่างประสิทธิภาพและต้นทุนการฝึกอบรม เมื่อ g เพิ่มจาก 8 เป็น 16 ค่าการสูญเสียลดลงน้อยกว่า 0.01 แต่ระยะเวลาการฝึกอบรมเพิ่มขึ้นประมาณ 50% ภายใต้งบประมาณการคำนวณเดียวกัน การเพิ่มผู้เชี่ยวชาญที่ใช้ร่วมกันทำให้ค่าการสูญเสียของโมเดลลดลงเพิ่มเติม
จากผลการทดลองการลบองค์ประกอบ ทีมวิจัยได้เลือกใช้การตั้งค่า E=8, g=8 พร้อมผู้เชี่ยวชาญร่วม ซึ่งประกอบด้วยผู้เชี่ยวชาญในการจัดเส้นทางแบบละเอียด 60 ราย ระบบการจัดเส้นทาง Top-4 และผู้เชี่ยวชาญร่วม 1 ราย โดยโครงสร้างนี้ถูกนำไปใช้ในเวอร์ชัน MobileMoE-S/M/L

รูป|การปรับขนาดโมเดล MoE ในเงื่อนไขที่เหมาะสมที่สุด

รูป|ประสิทธิภาพการฝึกอบรมของสถาปัตยกรรม MoE
การประเมินพื้นฐาน 14 ข้อ: การสร้างขอบเขตแพเรโตด้านปลายทางใหม่
ทีมวิจัยได้ประเมิน MobileMoE เทียบกับโมเดลต่างๆ เช่น Gemma 3, SmolLM2, Qwen3.5, OLMo 2 และ OLMoE-1B-7B ในสภาพแวดล้อมเดียวกัน โดยใช้การทดสอบพื้นฐาน 14 รายการในห้าหมวดหมู่ ได้แก่ เหตุผลเชิงตรรกะทั่วไป ความรู้ วิทยาศาสตร์ การอ่าน และการให้เหตุผล

รูป|เส้นทางการฝึกล่วงหน้าของ MobileMoE
ผลการเปรียบเทียบโมเดล Base แสดงว่า MobileMoE-M มีคะแนนเฉลี่ยสูงกว่า Qwen3.5 2B และ MobileMoE-L มีคะแนนเฉลี่ยสูงกว่า OLMoE-1B-7B โดยต้องการขนาดโมเดลน้อยกว่า; ทีมวิจัยยังระบุว่า รุ่น Base ของ MobileMoE-L มีคะแนนเฉลี่ยสูงกว่ารุ่น Instruct ของ OLMoE-1B-7B แล้ว ในแง่ขนาดการฝึกอบรม MobileMoE ใช้ token การฝึกล่วงหน้าประมาณ 6T น้อยกว่า Llama 3.2 1B ที่ 9T และ SmolLM2 1.7B ที่ 11T ในภาพรวมของการเปรียบเทียบโมเดลที่ผ่านการปรับแต่งคำสั่ง ความแม่นยำเฉลี่ยของ MobileMoE-M ใกล้เคียงกับ OLMoE-1B-7B แต่มีพารามิเตอร์ที่ใช้งานอยู่และพารามิเตอร์ทั้งหมดน้อยกว่าประมาณ 60%

รูป|การเปรียบเทียบโมเดล MobileMoE-Base
รีวิวระดับสูง: ข้อได้เปรียบในงานด้านรหัสและคณิตศาสตร์ชัดเจนยิ่งขึ้น
ในการประเมินขั้นสูงหลังจากการปรับแต่งคำสั่ง MobileMoE แสดงประสิทธิภาพที่โดดเด่นกว่าในงานด้านรหัสและคณิตศาสตร์ โดยตัวอย่างเช่น MobileMoE-L มีคะแนนเฉลี่ยสูงกว่า Qwen3.5 2B และ OLMoE-1B-7B ในทั้งสองการประเมินด้านรหัสและคณิตศาสตร์ อย่างไรก็ตาม ทีมวิจัยยังระบุว่า ในทักษะการปฏิบัติตามคำสั่งและการให้เหตุผลเชิงความรู้ Qwen3.5 2B ยังคงมีความแข็งแกร่งกว่า

รูป|การเปรียบเทียบโมเดล Instruct บนการทดสอบประสิทธิภาพระดับสูง
การวัดเชิงปริมาณและการปรับใช้บนอุปกรณ์ปลายทาง: ยังคงมีความสามารถในการแข่งขันแม้หลังจากใช้ INT4 และเร็วขึ้นอย่างชัดเจนบนโทรศัพท์มือถือ
หลังจากการควอนไทซ์ คะแนนเฉลี่ยรวมของ MobileMoE-S/M/L ลดลงเล็กน้อยเมื่อเทียบกับรุ่น BF16 ของแต่ละรุ่น แต่การลดลงอยู่ในช่วงประมาณ 2 ถึง 3 คะแนน แม้จะเช่นนั้น รุ่น INT4 ของ MobileMoE-L ยังคงมีประสิทธิภาพสูงกว่ารุ่น BF16 ของ OLMoE-1B-7B Instruct
ทีมวิจัยยังได้ปรับใช้ MobileMoE บน Samsung Galaxy S25 และ iPhone 16 Pro เพื่อทำการทดสอบ ผลลัพธ์แสดงว่าภายใต้เงื่อนไขหน่วยความจำของน้ำหนัก INT4 ที่เทียบเคียงกัน MobileMoE-S เร็วกว่า MobileLLM-Pro 1.8-3.8 เท่าในขั้นตอนการป้อนข้อมูล และเร็วกว่า 2.2-3.4 เท่าในขั้นตอนการสร้างทีละโทเค็น
ในแง่ของการใช้หน่วยความจำ ในเงื่อนไขของ Samsung Galaxy S25, บริบท 8K และ prompt จริง ค่า峰值 RSS ของ MobileMoE-S อยู่ที่ 1.49GB ต่ำกว่า MobileLLM-Pro ที่ 1.91GB

รูป|ความล่าช้าของเวลาการดำเนินการที่ขอบ
ข้อจำกัดและทิศทางในอนาคต
ในปัจจุบัน บนด้านการปฏิบัติตามคำสั่งขั้นสูง รวมถึงความสามารถด้านความรู้และการให้เหตุผล MobileMoE ที่ผ่านการปรับแต่งด้วยคำสั่งยังคงตามหลัง Qwen3.5 2B ทีมวิจัยเชื่อว่าช่องว่างนี้อาจเกิดจากกระบวนการฝึกฝนหลังจากนั้นที่สมบูรณ์ยิ่งขึ้น ในอนาคต เพื่อลดช่องว่างนี้ ฝั่งการฝึกอบรมจำเป็นต้องเสริมสร้างการถ่ายโอนความรู้ การฝึกฝนหลังจากนั้นเพื่อการให้เหตุผล และการขยายแบบหลายโมดัล
นอกจากนี้ ทีมวิจัยชี้ให้เห็นว่า การใช้หน่วยความจำของ MoE บนโทรศัพท์มือถือจะเปลี่ยนแปลงตามเนื้อหาที่ป้อนเข้ามา เมื่อเปรียบเทียบกับการป้อนข้อมูลแบบเทมเพลตคงที่ การป้อนข้อมูลจริงมักจะสร้างภาระหน่วยความจำที่สูงกว่า หากทดสอบเฉพาะบนข้อมูลเทมเพลต อาจทำให้ประเมินภาระหน่วยความจำในสถานการณ์การใช้งานจริงต่ำเกินไป ในอนาคต เพื่อประเมินประสิทธิภาพหน่วยความจำจริงของ MoE บนอุปกรณ์ปลายทางอย่างแม่นยำยิ่งขึ้น ยังคงจำเป็นต้องใช้ข้อมูลการทดสอบจริงเพิ่มเติม
ในขณะเดียวกัน ทีมวิจัยได้ดำเนินการทดสอบระบบบนอุปกรณ์จริงสำหรับ CPU และ GPU แล้ว แต่เส้นทาง NPU ยังคงต้องการการสำรวจเพิ่มเติม ในขณะเดียวกัน การใช้หน่วยความจำในระหว่างการรันของ MoE นั้นไวต่อเนื้อหาที่ป้อนเข้ามา ในอนาคต การเรียนรู้แบบไดนามิก การตัดแต่งผู้เชี่ยวชาญ การใช้ควอนตัมแบบความแม่นยำผสม และการปรับใช้บน NPU สำหรับอุปกรณ์เคลื่อนที่ ล้วนเป็นทิศทางที่จะช่วยเพิ่มประสิทธิภาพด้านปลายทางต่อไป
สำหรับรายละเอียดทางเทคนิคเพิ่มเติม โปรดดูที่บทความต้นฉบับ
บทความนี้มาจากบัญชี.weixinชื่อ “Academic Headline” (ID: SciTouTiao) โดยผู้เขียน: Xia Qians
