Cerebras 於 Kimi K2.6 模型上達成每秒 981 個詞元，比 GPU 雲端快 6.7 倍

Cerebras Systems 目前正為 Moonshot AI 的 Kimi K2.6 提供服務，這是一款擁有 1 兆參數的開源權重專家混合模型，每秒可輸出 981 個 token。此數字經由 Artificial Analysis 的獨立測試驗證，速度是次佳 GPU 雲端供應商的 6.7 倍。

以供參考，中位數的推論提供者速度約慢了 23 倍。

實際上這些數字看起來是怎樣的

在一個具代表性的代理編碼工作負載中，輸入 10,000 個標記、輸出 500 個標記，由 Cerebras 驅動的設置在 5.6 秒內提供了完整回應。

在官方 Kimi 端點上執行相同任務耗時 163.7 秒，端到端延遲提升了 29 倍。

Kimi K2.6 模型本身值得了解。該模型由 Moonshot AI 開發，於 2026 年 4 月 20 日發布，具備多模態與代理能力。儘管總參數量達到 1 兆，但由於 MoE 架構，任何時刻僅激活 320 億個參數。

為何晶圓級架構改變了計算方式

Cerebras 的核心技術是晶圓級引擎（Wafer-Scale Engine），這是一種由整片矽晶圓製成的晶片。傳統晶片是從晶圓上切割成小塊獨立的晶粒，而 Cerebras 跳過了切割步驟，直接使用整片晶圓。

Cerebras 声稱其頻寬比 NVIDIA 的 NVLink 高出 200 倍以上，NVLink 是用於數據中心集群中連接 GPU 的互連技術。在運行大型模型的推理時，瓶頸幾乎總是記憶體頻寬，而非原始計算能力。每生成一個標記，都需要從記憶體中讀取權重並傳輸給處理器。

一家剛上市、亟需證明自己的公司

Cerebras 於 2026 年 5 月完成首次公開募股，估值達 950 億美元，成為本年度規模最大的科技公司 IPO。

每秒 981 個 token 的結果，是迄今最具體的證據，證明該論點中的速度部分成立。Cerebras 尚未發布與此基準測試相關的詳細定價比較。

透過支援來自中國頂尖人工智慧實驗室的最知名開源權重模型之一，Cerebras 展示了其硬體能夠處理開發者實際希望使用的模型。