Cerebras đạt 981 từ mỗi giây trên mô hình Kimi K2.6, nhanh hơn 6,7 lần so với đám mây GPU

iconCryptoBriefing
Chia sẻ
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconTóm tắt

expand icon
Cerebras Systems hiện đang cung cấp 981 token mỗi giây cho mô hình Kimi K2.6 của Moonshot AI, được xác minh bởi Artificial Analysis. Mô hình MoE mở với 1 nghìn tỷ tham số này chạy nhanh hơn 6,7 lần so với đám mây GPU tốt nhất. Dữ liệu trên chuỗi cho thấy cải thiện độ trễ 29 lần trong các tác vụ lập trình, với Cerebras hoàn thành phản hồi trong 5,6 giây so với 163,7 giây trên endpoint chính thức của Kimi. Phân tích trên chuỗi xác nhận khoảng cách hiệu suất vẫn duy trì ổn định trên các tải công việc.

Cerebras Systems hiện đang phục vụ Moonshot AI’s Kimi K2.6, một mô hình Mixture-of-Experts mở với 1 nghìn tỷ tham số, với tốc độ 981 token đầu ra mỗi giây. Con số này, được xác minh bởi các bài kiểm tra độc lập từ Artificial Analysis, nhanh gấp 6,7 lần so với nhà cung cấp đám mây GPU tốt nhất tiếp theo.

Để làm rõ, nhà cung cấp suy luận trung vị chậm khoảng 23 lần.

Số liệu thực tế trông như thế nào

Trên một tải công việc mã hóa đại diện, với 10.000 token đầu vào và 500 token đầu ra, cấu hình được hỗ trợ bởi Cerebras đã đưa ra phản hồi hoàn chỉnh trong 5,6 giây.

Quảng cáo

Nhiệm vụ tương tự trên endpoint chính thức của Kimi mất 163,7 giây. Đó là sự cải thiện 29 lần về độ trễ đầu đến cuối.

Chính mô hình Kimi K2.6 đáng để hiểu rõ. Được phát triển bởi Moonshot AI và ra mắt vào ngày 20 tháng 4 năm 2026, nó sở hữu khả năng đa mô态 và đại lý. Mặc dù tổng số tham số đạt 1 nghìn tỷ, nhưng chỉ có 32 tỷ tham số được kích hoạt tại bất kỳ thời điểm nào, nhờ vào kiến trúc MoE.

Tại sao kiến trúc quy mô wafer thay đổi các phép tính

Công nghệ cốt lõi của Cerebras là Wafer-Scale Engine, một con chip gồm toàn bộ tấm silicon. Các con chip truyền thống được cắt từ các tấm silicon thành các die nhỏ riêng lẻ. Cerebras bỏ qua bước cắt và sử dụng toàn bộ tấm silicon.

Cerebras tuyên bố có băng thông vượt quá 200 lần so với NVLink của NVIDIA, công nghệ kết nối dùng để liên kết các GPU trong các cụm trung tâm dữ liệu. Khi chạy suy luận trên các mô hình lớn, điểm nghẽn gần như luôn là băng thông bộ nhớ, chứ không phải khả năng tính toán thô. Các trọng số cần được đọc từ bộ nhớ và truyền đến bộ xử lý cho từng token được tạo ra.

Bối cảnh doanh nghiệp: một công ty vừa niêm yết và có điều gì đó cần chứng minh

Cerebras đã hoàn thành IPO vào tháng 5 năm 2026 với định giá 95 tỷ USD, trở thành đợt IPO công nghệ lớn nhất năm.

Kết quả 981 token mỗi giây là bằng chứng cụ thể nhất cho đến nay rằng một nửa luận điểm về tốc độ là đúng. Cerebras chưa công bố các so sánh giá chi tiết đi kèm với bài kiểm tra hiệu năng này.

Bằng cách hỗ trợ một trong những mô hình trọng số mở nổi bật nhất từ một phòng thí nghiệm AI hàng đầu của Trung Quốc, Cerebras đang chứng minh rằng phần cứng của họ có thể xử lý các mô hình mà các nhà phát triển thực sự muốn sử dụng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này. Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụngTiết lộ rủi ro của chúng tôi.