Cerebras、Kimi K2.6モデルで秒間981トークンを達成、GPUクラウド比6.7倍高速

Cerebras Systemsは、1兆パラメーターのオープンウェイトなMixture-of-ExpertsモデルであるMoonshot AIのKimi K2.6を、秒間981トークンの出力速度で提供しています。この数値は、Artificial Analysisによる独立したテストで確認され、次に速いGPUクラウドプロバイダーの6.7倍の速度を実現しています。

参照として、中央値の推論プロバイダーは約23倍遅いです。

実際の数値はどのように見えるか

10,000の入力トークンと500の出力トークンを伴う代表的なエージェント型コーディングワークロードにおいて、Cerebras搭載の設定は5.6秒で完全な応答を提供しました。

公式のKimiエンドポイントでの同じタスクは163.7秒かかりました。これはエンドツーエンドの遅延が29倍改善されたことを意味します。

Kimi K2.6モデル自体を理解することは重要です。Moonshot AIによって開発され、2026年4月20日にリリースされたこのモデルは、マルチモーダルおよびエージェント機能を備えています。総パラメータ数は1兆に達しますが、MoEアーキテクチャのおかげで、常に320億パラメータのみがアクティブです。

ウェーファスケールアーキテクチャが計算を変える理由

Cerebrasのコア技術は、1枚のシリコンウエハーそのものであるウェーハスケールエンジンです。従来のチップは、ウエハーから小さな個々のダイに切断されます。Cerebrasはこの切断工程を省略し、全体を使用します。

Cerebrasは、データセンタークラスタ内でGPUを接続するインターコネクト技術であるNVIDIAのNVLinkと比較して、200倍以上のバンド幅を有すると主張しています。大規模モデルでの推論を実行する際、ボトルネックはほぼ常に処理能力ではなくメモリバンド幅です。生成されるすべてのトークンに対して、重みをメモリから読み取り、プロセッサに供給する必要があります。

証明するべきものを持つ新しく上場した企業

Cerebrasは2026年5月に時価総額950億ドルでIPOを実施し、今年最大のテクノロジー企業のIPOとなりました。

秒間981トークンという結果は、その仮説の速度部分が成り立っていることを示すこれまでで最も具体的な証拠である。Cerebrasはこのベンチマークと併せて詳細な価格比較を公開していない。

中国の主要なAI研究所が開発した最も注目されるオープンウェイトモデルの1つを提供することで、Cerebrasは自社のハードウェアが開発者が実際に使用したいモデルを処理できることを示しています。