Cerebras、Kimi K2.6モデルで秒間981トークンを達成、GPUクラウド比6.7倍高速

iconCryptoBriefing
共有
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary icon概要

expand icon
Cerebras Systemsは、Artificial Analysisによる検証に基づき、Moonshot AIのKimi K2.6モデルに対して毎秒981トークンを提供しています。この1兆パラメータのオープンウェイトMoEモデルは、最良のGPUクラウドよりも6.7倍高速です。オンチェーンデータによると、コーディングタスクにおける遅延は29倍改善され、Cerebrasは5.6秒で応答を完了するのに対し、公式Kimiエンドポイントでは163.7秒かかります。オンチェーン分析により、この性能差がさまざまなワークロードで一貫して維持されていることが確認されています。

Cerebras Systemsは、1兆パラメーターのオープンウェイトなMixture-of-ExpertsモデルであるMoonshot AIのKimi K2.6を、秒間981トークンの出力速度で提供しています。この数値は、Artificial Analysisによる独立したテストで確認され、次に速いGPUクラウドプロバイダーの6.7倍の速度を実現しています。

参照として、中央値の推論プロバイダーは約23倍遅いです。

実際の数値はどのように見えるか

10,000の入力トークンと500の出力トークンを伴う代表的なエージェント型コーディングワークロードにおいて、Cerebras搭載の設定は5.6秒で完全な応答を提供しました。

広告

公式のKimiエンドポイントでの同じタスクは163.7秒かかりました。これはエンドツーエンドの遅延が29倍改善されたことを意味します。

Kimi K2.6モデル自体を理解することは重要です。Moonshot AIによって開発され、2026年4月20日にリリースされたこのモデルは、マルチモーダルおよびエージェント機能を備えています。総パラメータ数は1兆に達しますが、MoEアーキテクチャのおかげで、常に320億パラメータのみがアクティブです。

ウェーファスケールアーキテクチャが計算を変える理由

Cerebrasのコア技術は、1枚のシリコンウエハーそのものであるウェーハスケールエンジンです。従来のチップは、ウエハーから小さな個々のダイに切断されます。Cerebrasはこの切断工程を省略し、全体を使用します。

Cerebrasは、データセンタークラスタ内でGPUを接続するインターコネクト技術であるNVIDIAのNVLinkと比較して、200倍以上のバンド幅を有すると主張しています。大規模モデルでの推論を実行する際、ボトルネックはほぼ常に処理能力ではなくメモリバンド幅です。生成されるすべてのトークンに対して、重みをメモリから読み取り、プロセッサに供給する必要があります。

証明するべきものを持つ新しく上場した企業

Cerebrasは2026年5月に時価総額950億ドルでIPOを実施し、今年最大のテクノロジー企業のIPOとなりました。

秒間981トークンという結果は、その仮説の速度部分が成り立っていることを示すこれまでで最も具体的な証拠である。Cerebrasはこのベンチマークと併せて詳細な価格比較を公開していない。

中国の主要なAI研究所が開発した最も注目されるオープンウェイトモデルの1つを提供することで、Cerebrasは自社のハードウェアが開発者が実際に使用したいモデルを処理できることを示しています。

免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。 デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。