Cerebras 於 Kimi K2.6 模型上達成每秒 981 個詞元,比 GPU 雲端快 6.7 倍

iconCryptoBriefing
分享
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon精華摘要

expand icon
Cerebras Systems 現已為 Moonshot AI 的 Kimi K2.6 模型提供每秒 981 個 token 的處理速度,此數據已由 Artificial Analysis 驗證。這款擁有 1 兆參數的開源權重 MoE 模型,運行速度比最佳 GPU 雲端快 6.7 倍。鏈上數據顯示,在編程任務中延遲降低了 29 倍,Cerebras 完成回應僅需 5.6 秒,而官方 Kimi 端點則需 163.7 秒。鏈上分析確認,此性能差距在各類工作負載中均保持一致。

Cerebras Systems 目前正為 Moonshot AI 的 Kimi K2.6 提供服務,這是一款擁有 1 兆參數的開源權重專家混合模型,每秒可輸出 981 個 token。此數字經由 Artificial Analysis 的獨立測試驗證,速度是次佳 GPU 雲端供應商的 6.7 倍。

以供參考,中位數的推論提供者速度約慢了 23 倍。

實際上這些數字看起來是怎樣的

在一個具代表性的代理編碼工作負載中,輸入 10,000 個標記、輸出 500 個標記,由 Cerebras 驅動的設置在 5.6 秒內提供了完整回應。

廣告

在官方 Kimi 端點上執行相同任務耗時 163.7 秒,端到端延遲提升了 29 倍。

Kimi K2.6 模型本身值得了解。該模型由 Moonshot AI 開發,於 2026 年 4 月 20 日發布,具備多模態與代理能力。儘管總參數量達到 1 兆,但由於 MoE 架構,任何時刻僅激活 320 億個參數。

為何晶圓級架構改變了計算方式

Cerebras 的核心技術是晶圓級引擎(Wafer-Scale Engine),這是一種由整片矽晶圓製成的晶片。傳統晶片是從晶圓上切割成小塊獨立的晶粒,而 Cerebras 跳過了切割步驟,直接使用整片晶圓。

Cerebras 声稱其頻寬比 NVIDIA 的 NVLink 高出 200 倍以上,NVLink 是用於數據中心集群中連接 GPU 的互連技術。在運行大型模型的推理時,瓶頸幾乎總是記憶體頻寬,而非原始計算能力。每生成一個標記,都需要從記憶體中讀取權重並傳輸給處理器。

一家剛上市、亟需證明自己的公司

Cerebras 於 2026 年 5 月完成首次公開募股,估值達 950 億美元,成為本年度規模最大的科技公司 IPO。

每秒 981 個 token 的結果,是迄今最具體的證據,證明該論點中的速度部分成立。Cerebras 尚未發布與此基準測試相關的詳細定價比較。

透過支援來自中國頂尖人工智慧實驗室的最知名開源權重模型之一,Cerebras 展示了其硬體能夠處理開發者實際希望使用的模型。

免責聲明:本頁面資訊可能來自第三方,不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用,不構成任何形式的陳述或保證,也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏,或因使用該資訊而導致的任何結果不承擔任何責任。 虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息,請參閱我們的使用條款風險披露