Tin tức từ ME News, ngày 27 tháng 5 (UTC+8), theo giám sát của Beating, sau khi triển khai giảm giá vĩnh viễn cho API trong loạt mô hình lớn tự phát triển MiMo-V2.5, trưởng nhóm mô hình lớn của Xiaomi, Luo Fuli, đã công bố cơ chế giảm chi phí thuật toán trên nền tảng X. Luo Fuli tiết lộ, sau khi giá API được điều chỉnh ngang bằng với DeepSeek, động cơ suy luận tải cao của Xiaomi vẫn duy trì được điểm hòa vốn. Việc giảm chi phí chủ yếu đến từ kiến trúc chú ý hỗn hợp và tối ưu hóa bộ nhớ đệm KV phân cấp. Nhằm đạt mục tiêu giảm 99% chi phí cho tỷ lệ hit bộ nhớ đệm (Cache Hit), khung suy luận của Xiaomi đã thực hiện tối ưu hóa bộ nhớ đệm KV phân cấp cho chú ý cửa sổ trượt (SWA). Kết quả thử nghiệm sản xuất cho thấy, tối ưu hóa phân cấp đã tăng dung lượng token bộ nhớ đệm lên 5 lần và giảm 80% chi phí bộ nhớ đệm. Kết hợp với công nghệ chồng chéo đọc bộ nhớ đệm (Cache Read Overlap) giữa các module chú ý toàn cục, hệ thống tiếp tục giảm chi phí thực tế của các lần hit bộ nhớ đệm. Về lý do giảm 60% đến 80% chi phí đầu vào và đầu ra cơ bản, Luo Fuli cho rằng điều này là nhờ tỷ lệ thưa thớt giữa các lớp trong mô hình là 1:7, tức là tỷ lệ giữa các lớp chú ý toàn cục (GA) và chú ý cửa sổ trượt (SWA) là 1:7. Trong giai đoạn tiền điền (Prefill) văn bản dài, 60 lớp SWA chỉ tính toán cửa sổ trượt cục bộ, khiến tổng lượng tính toán chú ý của mô hình MiMo-V2.5-Pro với 70 lớp chỉ tương đương với một mô hình GQA truyền thống có 10 lớp. Tải tính toán cực thấp đã làm giảm chi phí suy luận ban đầu, trước khi điều chỉnh giá, đã mang lại cho Xiaomi khoảng lợi nhuận từ 2 đến 3 lần. Do đó, việc giảm giá là biểu hiện của việc giảm chi phí cấu trúc, chứ không phải cạnh tranh thua lỗ. Luo Fuli cho biết, dịch vụ suy luận chi phí thấp sẽ kích thích nhu cầu trí tuệ đầu cuối. Các doanh nghiệp mô hình lớn nên tránh chiến tranh giá vô thức, mà nên thông qua thiết kế phối hợp nền tảng giữa thuật toán và hệ thống suy luận, kiểm soát chi phí vận hành thực tế dưới mức hòa vốn. (Nguồn: BlockBeats)
Mô hình MiMo-V2.5 của Xiaomi giảm chi phí bằng tính toán chú ý tương đương 10 lớp
KuCoinFlashChia sẻ






Mô hình MiMo-V2.5 của Xiaomi giảm chi phí bằng cách sử dụng tính toán chú ý tương đương 10 lớp. Phiên bản Pro 70 lớp giảm chi phí hit cache lên đến 99% và chi phí đầu vào/đầu ra từ 60-80%. Tin tức trên chuỗi cho thấy mô hình sử dụng tỷ lệ thưa 1:7 giữa chú ý cửa sổ trượt và chú ý toàn cầu. Các thay đổi chính sách tiền điện tử toàn cầu có thể ảnh hưởng đến cách những lợi ích về hiệu quả này tác động đến việc triển khai AI.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.