Trong những năm gần đây, các mô hình chuyên gia hỗn hợp (MoE) đã được sử dụng rộng rãi trong các mô hình quy mô lớn trên đám mây. Tuy nhiên, trên thiết bị di động, các mô hình ngôn ngữ lớn (LLM) vẫn chủ yếu sử dụng kiến trúc dày đặc. Trước đây, do các ràng buộc nghiêm ngặt hơn về bộ nhớ, sức tính toán và độ trễ trên thiết bị di động, các nghiên cứu hệ thống về MoE ở phạm vi dưới một tỷ tham số hoạt động trên thiết bị đầu cuối vẫn còn thiếu vắng. Hiện nay, với sự gia tăng dung lượng DRAM trên thiết bị di động, MoE cũng bắt đầu có cơ hội được triển khai trên điện thoại thông minh.
MobileMoE do nhóm Meta đề xuất đã lần đầu tiên thực hiện suy luận MoE hiệu quả trên điện thoại thông minh thương mại. Kết quả cho thấy, trong 14 bài kiểm tra cơ bản, MobileMoE-S/M đạt mức độ chính xác trung bình tương đương hoặc cao hơn so với mô hình dày đặc, trong khi chỉ sử dụng 1/2 đến 1/4 lượng tính toán suy luận, với dung lượng bộ nhớ tương đương. Trong thử nghiệm thực tế, MobileMoE-S cho thấy tốc độ tăng đáng kể nhất trên GPU/MLX của iPhone 16 Pro, với tốc độ tăng tối đa lên đến 3,8 lần ở giai đoạn đầu vào.

Liên kết bài báo: https://arxiv.org/abs/2605.27358
Nhóm nghiên cứu cũng đề xuất một quy luật mở rộng MoE phía thiết bị để xác định cấu trúc mô hình phù hợp hơn để triển khai trên điện thoại di động. MobileMoE đã thiết lập một ranh giới Pareto mới cho các mô hình ngôn ngữ lớn phía thiết bị, đạt được kết quả tối ưu hơn trong việc cân bằng giữa độ chính xác và chi phí tính toán suy luận.

Hình | MobileMoE đã thiết lập một ranh giới Pareto mới cho các mô hình ngôn ngữ lớn tại đầu cuối.
MobileMoE được thiết kế như thế nào?
MobileMoE có thể được hiểu là một loại mô hình ngôn ngữ MoE được thiết kế dành cho việc triển khai trên thiết bị đầu cuối. Về cơ bản, nó vẫn là Transformer chỉ có decoder, nhưng thay thế các lớp feedforward dày đặc bằng các lớp MoE. Bộ định tuyến sẽ chọn ra một số ít chuyên gia có điểm số cao nhất để tham gia tính toán cho mỗi token, đồng thời một chuyên gia chung luôn tham gia tính toán. Toàn bộ quy trình huấn luyện được chia thành bốn bước: tiền huấn luyện, huấn luyện giai đoạn giữa, tinh chỉnh có giám sát và huấn luyện nhận thức lượng tử hóa.
Tiền huấn luyện: Nhóm nghiên cứu đã tiền huấn luyện với độ dài ngữ cảnh 2048, sử dụng khoảng 6T token dữ liệu cấp phép mở, chủ yếu đến từ web, đồng thời bao phủ các lĩnh vực như toán học, mã nguồn, kiến thức và khoa học.
Đào tạo trung hạn: Nhóm nghiên cứu đã mở rộng độ dài ngữ cảnh lên 8192 và tăng thêm tỷ lệ dữ liệu chất lượng cao như kiến thức, mã nguồn, toán học và khoa học, với tổng quy mô khoảng 500B token.
Supervised Fine-Tuning (SFT): Nhóm nghiên cứu đã tinh chỉnh MobileMoE-Base trên bộ dữ liệu tinh chỉnh hướng dẫn cấp phép mở với hơn 80 triệu mẫu.
Huấn luyện nhận thức lượng tử: Nhóm nghiên cứu đã lượng tử hóa các lớp tuyến tính và embedding xuống INT4, lượng tử hóa động kích hoạt xuống INT8, trong khi router vẫn giữ độ chính xác FP32.

Hình | Quá trình đào tạo bốn giai đoạn của MobileMoE.
Kết quả thí nghiệm
Kết quả thí nghiệm xóa bỏ
Nhóm nghiên cứu đã so sánh ba biến kiến trúc: số lượng chuyên gia E, độ phân giải chuyên gia g, và việc có thêm chuyên gia chung hay không.

Hình | Thang đo số lượng chuyên gia E.
Trong ngân sách bộ nhớ cố định, khi bộ nhớ vượt quá khoảng 0,25 GB, tổn thất của MoE bắt đầu thấp hơn so với mô hình dày đặc tương ứng. Khi tiếp tục tăng số lượng chuyên gia E, tổn thất sẽ tiếp tục giảm, nhưng khi E tăng lên 8, lợi ích biên đã rõ ràng suy giảm. Các thí nghiệm với độ phân giải chuyên gia g cho thấy cấu hình chuyên gia tinh hơn về cơ bản hiệu quả hơn, trong đó g=8 đạt được sự cân bằng tốt giữa hiệu quả và chi phí huấn luyện; khi g tăng từ 8 lên 16, tổn thất chỉ cải thiện chưa đến 0,01 nhưng thời gian huấn luyện tăng khoảng 50%. Với cùng ngân sách tính toán, việc bổ sung chuyên gia chung giúp giảm thêm tổn thất của mô hình.
Dựa trên kết quả thí nghiệm xóa bỏ, nhóm nghiên cứu cuối cùng đã lựa chọn cấu hình E=8, g=8 với chuyên gia chia sẻ, tức là 60 chuyên gia định tuyến tinh細, định tuyến Top-4 và 1 chuyên gia chia sẻ, và áp dụng cấu trúc này cho ba phiên bản MobileMoE-S/M/L.

Hình | Mở rộng mô hình MoE trong điều kiện tối ưu.

Hình | Hiệu quả đào tạo kiến trúc MoE.
14 bài đánh giá cơ bản: Xây dựng ranh giới Pareto mới ở phía đầu cuối
Nhóm nghiên cứu đã đánh giá lại MobileMoE cùng với các mô hình như Gemma 3, SmolLM2, Qwen3.5, OLMo 2, OLMoE-1B-7B trong cùng một thiết lập trên 14 bài kiểm tra cơ bản thuộc năm danh mục: suy luận thường thức, kiến thức, khoa học, đọc hiểu và suy luận.

Hình | Quá trình tiền huấn luyện của MobileMoE.
Kết quả so sánh mô hình Base cho thấy MobileMoE-M có điểm trung bình cao hơn Qwen3.5 2B, MobileMoE-L có điểm trung bình cao hơn OLMoE-1B-7B và yêu cầu quy mô mô hình nhỏ hơn; nhóm nghiên cứu cũng lưu ý rằng phiên bản Base của MobileMoE-L đã có điểm trung bình cao hơn phiên bản Instruct của OLMoE-1B-7B. Về quy mô đào tạo, MobileMoE sử dụng khoảng 6T token pre-training, ít hơn so với 9T của Llama 3.2 1B và 11T của SmolLM2 1.7B. Trong so sánh tổng thể các mô hình tinh chỉnh chỉ dẫn, độ chính xác trung bình của MobileMoE-M đã gần bằng OLMoE-1B-7B, nhưng số lượng tham số hoạt động và tổng tham số đều ít hơn khoảng 60%.

Hình | So sánh mô hình MobileMoE-Base.
Đánh giá nâng cao: Ưu thế rõ rệt hơn trong các nhiệm vụ mã hóa và toán học
Trong các bài đánh giá nâng cao sau khi tinh chỉnh chỉ dẫn, MobileMoE thể hiện hiệu suất nổi bật hơn trong các nhiệm vụ mã hóa và toán học. Lấy MobileMoE-L làm ví dụ, nó đạt điểm trung bình cao hơn Qwen3.5 2B và OLMoE-1B-7B trong cả hai bài đánh giá về mã hóa và toán học. Tuy nhiên, nhóm nghiên cứu cũng lưu ý rằng, trong hai khả năng tuân theo chỉ dẫn và suy luận kiến thức, Qwen3.5 2B vẫn mạnh hơn.

Hình | So sánh các mô hình Instruct trên bài kiểm tra hiệu năng cao cấp.
Lượng hóa và triển khai tại thiết bị đầu cuối: Vẫn duy trì tính cạnh tranh sau khi chuyển sang INT4, tốc độ trên điện thoại tăng rõ rệt
Sau khi lượng tử hóa, điểm trung bình tổng thể của MobileMoE-S/M/L giảm so với các phiên bản BF16 tương ứng, nhưng mức giảm khoảng từ 2 đến 3 điểm. Dù vậy, phiên bản INT4 của MobileMoE-L vẫn vượt trội hơn phiên bản BF16 của OLMoE-1B-7B Instruct.
Đội ngũ nghiên cứu cũng đã triển khai MobileMoE trên Samsung Galaxy S25 và iPhone 16 Pro để thử nghiệm. Kết quả cho thấy, trong điều kiện bộ nhớ trọng số INT4 tương đương, MobileMoE-S nhanh hơn 1,8-3,8 lần ở giai đoạn đầu vào và nhanh hơn 2,2-3,4 lần ở giai đoạn sinh từng token so với MobileLLM-Pro.
Về dung lượng bộ nhớ, trong điều kiện Samsung Galaxy S25, ngữ cảnh 8K và prompt thực tế, RSS đỉnh của MobileMoE-S là 1,49 GB, thấp hơn 1,91 GB của MobileLLM-Pro.

Hình | Độ trễ thời gian chạy tại đầu thiết bị.
Hạn chế và hướng phát triển trong tương lai
Hiện tại, về khả năng tuân thủ lệnh cấp cao hơn cũng như khả năng kiến thức và suy luận, MobileMoE sau khi tinh chỉnh lệnh vẫn còn thua kém Qwen3.5 2B. Nhóm nghiên cứu cho rằng khoảng cách này có thể liên quan đến quá trình hậu huấn luyện được hoàn thiện hơn. Trong tương lai, để thu hẹp khoảng cách này, phía đào tạo cần tăng cường việc tinh chỉnh bằng cách phân tán, hậu huấn luyện hướng đến suy luận và mở rộng đa phương tiện.
Ngoài ra, nhóm nghiên cứu chỉ ra rằng mức sử dụng bộ nhớ của MoE trên điện thoại di động sẽ thay đổi tùy theo nội dung đầu vào. So với đầu vào mẫu cố định, các đầu vào thực tế thường gây ra mức sử dụng bộ nhớ cao hơn. Nếu chỉ dựa trên đầu vào mẫu để kiểm tra, có thể sẽ đánh giá thấp áp lực bộ nhớ trong các tình huống triển khai thực tế. Trong tương lai, để đánh giá chính xác hơn hiệu suất bộ nhớ thực tế của MoE trên thiết bị đầu cuối, vẫn cần dựa trên nhiều dữ liệu thử nghiệm thực tế hơn.
Đồng thời, nhóm nghiên cứu đã hoàn thành các bài kiểm tra hệ thống trên thiết bị thực với backend CPU và GPU, nhưng tuyến đường NPU vẫn cần được khám phá. Đồng thời, mức tiêu thụ bộ nhớ thời gian chạy của MoE khá nhạy cảm với nội dung đầu vào. Trong tương lai, các hướng cải thiện hiệu suất phía thiết bị bao gồm định tuyến động, cắt tỉa chuyên gia, lượng tử hóa độ chính xác hỗn hợp và triển khai NPU trên thiết bị di động.
Để biết thêm chi tiết kỹ thuật, vui lòng tham khảo bài báo gốc.
Bài viết này đến từ tài khoản WeChat "Academic Headline" (ID: SciTouTiao), tác giả: Xia Qiansi
