AIMPACT メッセージ:5月21日(UTC+8)、Beatingの監視によると、大規模モデルのPD(Prefill-Decode)分離デプロイにおける深刻化する構造的ネットワーク混雑の課題に対し、智譜、駿馴ネットワーク、清華大学が共同で研究を推進し、GLM-5.1 codingの千台規模の本番環境にZCubeネットワークアーキテクチャを実装しました。長コンテキストとPD分離推論が主流となる中、KV Cacheのノード間転送により推論トラフィックに著しい非対称性が生じており、従来のROFT(Rail-Optimized Fat-Tree)アーキテクチャは局所的なホットスポットやリンク衝突を引き起こしやすくなっていました。ZCubeはSpine層スイッチを廃止し、フルフラットなトポロジー(2ホップのネットワーク直径)を採用し、シングル/マルチトラックハイブリッド接続メカニズムを組み合わせることで、アーキテクチャレベルでノード間の全スイッチ間のトラフィック負荷を均等に分散させました。実際の本番クラスタでのベンチマークテストでは、GPU、ソフトウェアスタック、アプリケーションを変更せずに、ZCubeアーキテクチャは従来のアーキテクチャと比較してスイッチと光モジュールのハードウェアコストを33%削減し、GPUの平均推論スループットを15%向上させ、最初のトークン遅延(TTFT)のP99パーセンタイルを40.6%低下させました。(出典:BlockBeats)
ZCubeネットワークアーキテクチャにより、大規模モデル推論のコストが削減され、パフォーマンスが向上
KuCoinFlash共有






オンチェーンニュースによると、ZCubeネットワークのアップグレードは、大規模モデル推論におけるPD分離の課題を解決します。このアーキテクチャは、智谱、羽迅ネットワーク、清華大学によって開発され、現在GLM-5.1で稼働しています。スイッチと光モジュールのコストを33%削減し、GPUスループットを15%向上させ、P99ファーストトークンレイテンシを40.6%削減します。
出典:原文を表示
免責事項: 本ページの情報はサードパーティからのものであり、必ずしもKuCoinの見解や意見を反映しているわけではありません。この内容は一般的な情報提供のみを目的として提供されており、いかなる種類の表明や保証もなく、金融または投資助言として解釈されるものでもありません。KuCoinは誤記や脱落、またはこの情報の使用に起因するいかなる結果に対しても責任を負いません。
デジタル資産への投資にはリスクが伴います。商品のリスクとリスク許容度をご自身の財務状況に基づいて慎重に評価してください。詳しくは利用規約およびリスク開示を参照してください。