Cerebras、Kimi K2.6モデルを長文タスクで29倍の速度向上を検証

KuCoinFlash

公開時期： 2026/05/20 11:12:40

概要

Cerebrasは5月20日（UTC+8）に、自社のウェーハスケールチップを用いて兆パラメータのKimi K2.6モデルをテストしたことを発表しました。同社はチップを12インチ全ウェーハに直接搭載することで、通信遅延を削減しました。Artificial Analysisによると、このモデルは1秒あたり981トークンのテキストを生成し、標準的なGPUサービスと比較して6.7倍高速でした。10,000トークンの入力と500トークンの出力を持つ長文テストでは、応答時間が163.7秒から5.6秒に短縮され、29倍の改善が見られました。オンチェーンデータは、AIインフラにおけるパフォーマンス向上を引き続き示しています。

MEニュース：5月20日（UTC+8）、動察Beatingの監視によると、ウェハー級チップ企業Cerebrasは、企業テストで1兆パラメータの大型モデル「Kimi K2.6」をリリースした。このモデルは、12インチシリコンウェハー全体にチップを統合することで、従来のボードレベル通信の接続遅延を完全に排除した。第三者評価機関Artificial Analysisの実測では、生成速度が981 tokens/sに達し、主流GPUクラウドサービスの6.7倍の性能を発揮した。10,000トークン入力、500トークン出力の長文タスクにおいて、総応答時間はKimi公式APIの163.7秒から5.6秒に短縮され、29倍の高速化を実現した。モデル重みは複数のウェハーに分散して活性値をストリーミングし、層間通信はウェハー内部のネットワーク織物上で完全に実行されるため、物理通信帯域幅はNVIDIA NVL72アーキテクチャのNVLinkの200倍以上に達する。分散計算最適化と組み合わせて、Kimi K2.6は元の4ビット（4-bit）重みで低損失保存を行い、計算時には16ビット（16-bit）浮動小数点を使用して精度を維持し、カスタム演算子カーネルと予測的デコードを採用することでリアルタイム実行を実現した。（出典：BlockBeats）

出典:原文を表示

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。