Mô hình MiMo-V2.5 của Xiaomi giảm chi phí bằng tính toán chú ý tương đương 10 lớp

Tin tức từ ME News, ngày 27 tháng 5 (UTC+8), theo giám sát của Beating, sau khi triển khai giảm giá vĩnh viễn cho API trong loạt mô hình lớn tự phát triển MiMo-V2.5, trưởng nhóm mô hình lớn của Xiaomi, Luo Fuli, đã công bố cơ chế giảm chi phí thuật toán trên nền tảng X. Luo Fuli tiết lộ, sau khi giá API được điều chỉnh ngang bằng với DeepSeek, động cơ suy luận tải cao của Xiaomi vẫn duy trì được điểm hòa vốn. Việc giảm chi phí chủ yếu đến từ kiến trúc chú ý hỗn hợp và tối ưu hóa bộ nhớ đệm KV phân cấp. Nhằm đạt mục tiêu giảm 99% chi phí cho tỷ lệ hit bộ nhớ đệm (Cache Hit), khung suy luận của Xiaomi đã thực hiện tối ưu hóa bộ nhớ đệm KV phân cấp cho chú ý cửa sổ trượt (SWA). Kết quả thử nghiệm sản xuất cho thấy, tối ưu hóa phân cấp đã tăng dung lượng token bộ nhớ đệm lên 5 lần và giảm 80% chi phí bộ nhớ đệm. Kết hợp với công nghệ chồng chéo đọc bộ nhớ đệm (Cache Read Overlap) giữa các module chú ý toàn cục, hệ thống tiếp tục giảm chi phí thực tế của các lần hit bộ nhớ đệm. Về lý do giảm 60% đến 80% chi phí đầu vào và đầu ra cơ bản, Luo Fuli cho rằng điều này là nhờ tỷ lệ thưa thớt giữa các lớp trong mô hình là 1:7, tức là tỷ lệ giữa các lớp chú ý toàn cục (GA) và chú ý cửa sổ trượt (SWA) là 1:7. Trong giai đoạn tiền điền (Prefill) văn bản dài, 60 lớp SWA chỉ tính toán cửa sổ trượt cục bộ, khiến tổng lượng tính toán chú ý của mô hình MiMo-V2.5-Pro với 70 lớp chỉ tương đương với một mô hình GQA truyền thống có 10 lớp. Tải tính toán cực thấp đã làm giảm chi phí suy luận ban đầu, trước khi điều chỉnh giá, đã mang lại cho Xiaomi khoảng lợi nhuận từ 2 đến 3 lần. Do đó, việc giảm giá là biểu hiện của việc giảm chi phí cấu trúc, chứ không phải cạnh tranh thua lỗ. Luo Fuli cho biết, dịch vụ suy luận chi phí thấp sẽ kích thích nhu cầu trí tuệ đầu cuối. Các doanh nghiệp mô hình lớn nên tránh chiến tranh giá vô thức, mà nên thông qua thiết kế phối hợp nền tảng giữa thuật toán và hệ thống suy luận, kiểm soát chi phí vận hành thực tế dưới mức hòa vốn. (Nguồn: BlockBeats)