Cerebras 測試 Kimi K2.6 模型，在長文本任務中實現 29 倍速度提升

KuCoinFlash

發佈時間： 20/05/2026 11:12:40

精華摘要

Cerebras 於 5 月 20 日（UTC+8）表示，已使用其晶圓級晶片測試了千億參數的 Kimi K2.6 模型。通過將晶片直接安裝在完整的 12 英吋晶圓上，該公司減少了通訊延遲。根據 Artificial Analysis 的數據，該模型生成文字的速度達每秒 981 個 token，比標準 GPU 服務快 6.7 倍。在包含 10,000 個輸入 token 和 500 個輸出 token 的長文本測試中，響應時間從 163.7 秒降至 5.6 秒，提升了 29 倍。鏈上數據持續顯示 AI 基礎設施的性能提升。

ME News 消息，5 月 20 日（UTC+8），據動察 Beating 監測，晶圓級晶片公司 Cerebras 宣布在企業測試中上線萬億參數大模型 Kimi K2.6，透過直接在整張 12 英寸矽晶圓上整合晶片，徹底消除傳統板級通訊的互聯延遲。第三方評測機構 Artificial Analysis 實測顯示，其生成速度達 981 tokens/s，比主流 GPU 雲服務快 6.7 倍。在 10000 輸入、500 輸出 token 的長文本任務中，總響應耗時從 Kimi 官方介面的 163.7 秒縮短至 5.6 秒，提速達 29 倍。由於模型權重被分配至多個晶圓中流式傳輸激活值，層間通訊完全運行於晶圓內部的網路織網上，其物理通訊頻寬達到英偉達 NVL72 架構中 NVLink 的 200 倍以上。配合分散式計算優化，Kimi K2.6 以原始的 4-bit（4 位）權重進行低損存儲，計算時使用 16-bit（16 位）浮點數維持精度，並採用定制運算子核心與推測性解碼，最終達成實時化運行。（來源：BlockBeats）

來源:顯示原文

免責聲明：本頁面資訊可能來自第三方，不一定反映KuCoin的觀點或意見。本內容僅供一般參考之用，不構成任何形式的陳述或保證，也不應被解釋為財務或投資建議。 KuCoin 對任何錯誤或遺漏，或因使用該資訊而導致的任何結果不承擔任何責任。虛擬資產投資可能存在風險。請您根據自身的財務狀況仔細評估產品的風險以及您的風險承受能力。如需了解更多信息，請參閱我們的使用條款和風險披露。