Cerebras đạt 981 từ mỗi giây trên mô hình Kimi K2.6, nhanh hơn 6,7 lần so với đám mây GPU

Cerebras Systems hiện đang phục vụ Moonshot AI’s Kimi K2.6, một mô hình Mixture-of-Experts mở với 1 nghìn tỷ tham số, với tốc độ 981 token đầu ra mỗi giây. Con số này, được xác minh bởi các bài kiểm tra độc lập từ Artificial Analysis, nhanh gấp 6,7 lần so với nhà cung cấp đám mây GPU tốt nhất tiếp theo.

Để làm rõ, nhà cung cấp suy luận trung vị chậm khoảng 23 lần.

Số liệu thực tế trông như thế nào

Trên một tải công việc mã hóa đại diện, với 10.000 token đầu vào và 500 token đầu ra, cấu hình được hỗ trợ bởi Cerebras đã đưa ra phản hồi hoàn chỉnh trong 5,6 giây.

Quảng cáo

Nhiệm vụ tương tự trên endpoint chính thức của Kimi mất 163,7 giây. Đó là sự cải thiện 29 lần về độ trễ đầu đến cuối.

Chính mô hình Kimi K2.6 đáng để hiểu rõ. Được phát triển bởi Moonshot AI và ra mắt vào ngày 20 tháng 4 năm 2026, nó sở hữu khả năng đa mô态 và đại lý. Mặc dù tổng số tham số đạt 1 nghìn tỷ, nhưng chỉ có 32 tỷ tham số được kích hoạt tại bất kỳ thời điểm nào, nhờ vào kiến trúc MoE.

Tại sao kiến trúc quy mô wafer thay đổi các phép tính

Công nghệ cốt lõi của Cerebras là Wafer-Scale Engine, một con chip gồm toàn bộ tấm silicon. Các con chip truyền thống được cắt từ các tấm silicon thành các die nhỏ riêng lẻ. Cerebras bỏ qua bước cắt và sử dụng toàn bộ tấm silicon.

Cerebras tuyên bố có băng thông vượt quá 200 lần so với NVLink của NVIDIA, công nghệ kết nối dùng để liên kết các GPU trong các cụm trung tâm dữ liệu. Khi chạy suy luận trên các mô hình lớn, điểm nghẽn gần như luôn là băng thông bộ nhớ, chứ không phải khả năng tính toán thô. Các trọng số cần được đọc từ bộ nhớ và truyền đến bộ xử lý cho từng token được tạo ra.

Bối cảnh doanh nghiệp: một công ty vừa niêm yết và có điều gì đó cần chứng minh

Cerebras đã hoàn thành IPO vào tháng 5 năm 2026 với định giá 95 tỷ USD, trở thành đợt IPO công nghệ lớn nhất năm.

Kết quả 981 token mỗi giây là bằng chứng cụ thể nhất cho đến nay rằng một nửa luận điểm về tốc độ là đúng. Cerebras chưa công bố các so sánh giá chi tiết đi kèm với bài kiểm tra hiệu năng này.

Bằng cách hỗ trợ một trong những mô hình trọng số mở nổi bật nhất từ một phòng thí nghiệm AI hàng đầu của Trung Quốc, Cerebras đang chứng minh rằng phần cứng của họ có thể xử lý các mô hình mà các nhà phát triển thực sự muốn sử dụng.