Xiaomi ra mắt phiên bản tăng tốc MiMo với tốc độ 1000+ token/giây

icon币界网
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Xiaomi đã ra mắt mô hình mới sẵn sàng cho danh sách token, MiMo-V2.5-Pro-UltraSpeed, với hơn 1000 token mỗi giây trên các máy chủ tiêu chuẩn. Mô hình sử dụng lượng tử hóa FP4 và giải mã DFlash để tăng tốc độ mà không cần chip tùy chỉnh. Tối ưu hóa TileRT giảm tải GPU. Mô hình này vượt trội hơn GPT, Claude Opus và Gemini Flash. Truy cập API bắt đầu từ ngày 9 tháng Sáu. Mô hình đắt hơn ba lần nhưng nhanh hơn mười lần. Các điểm kiểm tra FP4 và DFlash đã được mở nguồn. Tin tức từ SEC vẫn là mối quan tâm chính đối với các dự án token.
Bijie.com báo cáo:

Xiaomi đã ra mắt MiMo-V2.5-Pro-UltraSpeed, phiên bản được tối ưu hóa để suy luận nhanh hơn của mô hình flagships với hàng nghìn tỷ tham số. Công ty cho biết, phiên bản mới đạt tốc độ suy luận vượt quá 1.000 token mỗi giây trên một máy chủ tiêu chuẩn với 8 GPU thông dụng, với đỉnh điểm thử nghiệm gần 1.200 token.

Trọng tâm của bản cập nhật này không nằm ở chính mô hình mới, mà ở hiệu suất suy luận. So với các giải pháp phụ thuộc vào chip tùy chỉnh, Xiaomi lần này nhấn mạnh việc sử dụng phần cứng phổ thông và tăng tốc thông qua tối ưu hóa phần mềm và mô hình. Điều này có nghĩa là rào cản để triển khai nhanh các mô hình lớn có thể tiếp tục giảm xuống.

Hai công nghệ thúc đẩy tăng tốc

Lần này, Xiaomi chủ yếu áp dụng hai công nghệ. Thứ nhất là lượng tử hóa FP4. Công ty nén các lớp chuyên gia chiếm phần lớn tham số của mô hình xuống độ chính xác 4-bit, trong khi các phần còn lại vẫn giữ độ chính xác cao. Việc này giúp giảm dung lượng bộ nhớ GPU và áp lực băng thông, từ đó tăng tốc độ suy luận.

Điều thứ hai là giải mã suy diễn DFlash. Giải mã suy diễn truyền thống thường bắt đầu bằng việc mô hình nhỏ dự đoán một số lượng nhỏ token, sau đó mô hình lớn xác minh song song. DFlash thay đổi bằng cách đề xuất toàn bộ khối token cùng một lúc, sau đó giao cho mô hình chính để xác minh. Trong các nhiệm vụ mã hóa, mô hình chính trung bình chấp nhận 6,3 token ứng cử trong mỗi vòng từ 8 token ứng cử.

Xiaomi và đối tác suy luận TileRT cũng đã tối ưu hóa quy trình thực thi. Ý tưởng của họ là giữ quy trình tính toán liên tục trong GPU, giảm chi phí bổ sung do việc khởi động từng toán tử một.

So sánh tốc độ các mô hình chính

Theo dữ liệu do Artificial Analysis trích dẫn, tốc độ đầu ra của các mô hình phổ biến hiện nay đều thấp hơn mức này. Bài báo cho biết, tốc độ tương tác phổ biến của chuỗi GPT khoảng 68 token mỗi giây, Claude Opus 4.6 khoảng 71 token mỗi giây, và Gemini Flash khoảng 192 token mỗi giây.

Bài báo cũng đề cập rằng các công ty như Cerebras và Groq đã lâu nay tập trung vào việc triển khai推理 với thông lượng cao và dựa vào kiến trúc chip tự phát triển để tăng tốc độ. Ngược lại, Xiaomi lần này đạt được kết quả này trên các nút GPU phổ dụng, nhấn mạnh vào sự cải thiện hiệu suất nhờ tối ưu hóa phần mềm.

Khởi động dùng thử giới hạn vào ngày 9 tháng 6

Xiaomi cho biết, UltraSpeed tăng tốc phiên bản gốc MiMo-V2.5-Pro, chứ không phải mô hình nhẹ đã được đơn giản hóa. Mô hình này trước đây đã được mô tả là có hiệu suất gần với Claude Opus trong các bài kiểm tra mã nguồn.

Công ty dự kiến mở đợt dùng thử API giới hạn từ ngày 9 tháng 6 đến ngày 23 tháng 6, áp dụng hình thức đăng ký, người dùng doanh nghiệp và nhà phát triển chuyên nghiệp sẽ được ưu tiên. Về giá cả, phiên bản UltraSpeed có giá khoảng gấp 3 lần mức phí MiMo tiêu chuẩn, nhưng tốc độ tạo ra có thể tăng lên khoảng 10 lần.

Thông tin bổ sung: Xiaomi cho biết, mô hình điểm kiểm tra sử dụng FP4 và DFlash đã được mở nguồn trên Hugging Face để cộng đồng thử nghiệm.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.