MiniMax hé lộ mô hình AI M3 với tốc độ giải mã nhanh hơn 15,6 lần

MiniMax, phòng thí nghiệm AI có trụ sở tại Thượng Hải được hỗ trợ bởi Tencent, Alibaba và miHoYo, vừa công bố báo cáo kỹ thuật về chuỗi mô hình M2. Bên trong có một manh mối về mô hình thế hệ tiếp theo M3, mà công ty tuyên bố đạt tốc độ giải mã nhanh hơn 15,6 lần và tốc độ prefill nhanh hơn 9,7 lần so với M2 khi xử lý ngữ cảnh 1 triệu token.

Điều mà MiniMax thực sự đã xây dựng

Bí quyết đằng sau bản teaser M3 là thứ mà MiniMax gọi là MiniMax Sparse Attention, hay MSA. Nó được xây dựng dựa trên kỹ thuật được gọi là lựa chọn khối động do GQA điều khiển. Thay vì buộc mô hình phải chú ý đến từng phần thông tin trong cửa sổ ngữ cảnh khổng lồ, MSA một cách thông minh chọn ra những khối dữ liệu thực sự quan trọng cho từng truy vấn cụ thể. Kết quả là lượng tính toán giảm đáng kể trong khi chất lượng đầu ra gần như không đổi.

MiniMax tuyên bố mô hình M3 duy trì chất lượng đầu ra tương đương với M2 mặc dù có những cải tiến tốc độ đáng kể này.

Báo cáo kỹ thuật itself bao gồm các đổi mới kỹ thuật trên toàn bộ dòng sản phẩm M2: M2, M2.5 và M2.7.

Quảng cáo

Cần lưu ý: chưa cung cấp thông tin xác nhận về số lượng tham số, chi tiết cấp phép hoặc lịch trình phát hành của M3.

Sự mở rộng của MiniMax

Được thành lập vào đầu năm 2022, MiniMax niêm yết trên Sở Giao dịch Chứng khoán Hồng Kông vào tháng 1 năm 2026. Các nhà đầu tư của nó, Tencent, Alibaba và miHoYo (xưởng phát triển Genshin Impact), đại diện cho một bộ phận các công ty công nghệ và game hàng đầu Trung Quốc.

Ngoài văn bản và mã, MiniMax vận hành nền tảng Hailuo để tạo video. Hailuo 2.3, phiên bản mới nhất, đã xử lý hàng tỷ kết quả theo công ty.

Tại sao các nhà đầu tư tiền điện tử và AI nên chú ý

Các mạng suy luận phi tập trung luôn bị nghẽn do độ trễ và chi phí. Nếu những lợi ích về hiệu quả của MSA được chuyển hóa thành_footprint tài nguyên nhỏ hơn mỗi truy vấn, các chủ nút mạng có thể phục vụ nhiều yêu cầu hơn mà không cần nâng cấp thiết bị của họ.

Các tác nhân AI bản địa tiền điện tử, vốn theo dõi dữ liệu trên chuỗi, thực hiện giao dịch hoặc phân tích hợp đồng thông minh theo thời gian thực, cũng bị giới hạn bởi tốc độ mà các mô hình nền tảng của chúng có thể xử lý thông tin. Một mô hình xử lý ngữ cảnh 1 triệu token với tốc độ nhanh gần 16 lần so với trước đây mở ra những trường hợp sử dụng trước đây không khả thi.

Chưa xác nhận bất kỳ tích hợp trực tiếp nào giữa công nghệ của MiniMax và bất kỳ nền tảng blockchain hoặc token kỹ thuật số nào. Mối liên hệ giữa các mô hình AI nhanh hơn và các ứng dụng tiền điện tử vẫn chỉ là suy luận logic, không phải thông báo sản phẩm.

Đối với các nhà đầu tư trong lĩnh vực AI phi tập trung, chỉ số quan trọng cần theo dõi không phải là ngày phát hành của M3, mà là liệu kiến trúc MSA có được mở nguồn cùng với trọng số mô hình hay không. Nếu MiniMax tuân theo mô hình cấp phép rộng rãi đã thiết lập, mọi dự án suy luận phi tập trung trên toàn cầu đều được nâng cấp miễn phí lên kế hoạch hiệu quả của họ. Nếu công ty giữ MSA dưới dạng sở hữu độc quyền, lợi thế cạnh tranh sẽ vẫn tập trung tại Thượng Hải.