Arsitektur ZCube Network Mengurangi Biaya dan Meningkatkan Kinerja dalam Inferensi Model Besar

iconKuCoinFlash
Bagikan
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Peningkatan jaringan ZCube menangani masalah pemisahan PD dalam inferensi model besar, seperti dilaporkan dalam berita on-chain. Dikembangkan oleh ZhiPu, YuXun Network, dan Universitas Tsinghua, arsitektur ini kini aktif di GLM-5.1. Arsitektur ini mengurangi biaya switch dan modul optik sebesar 33%, meningkatkan throughput GPU sebesar 15%, serta mengurangi latensi P99 token pertama sebesar 40,6%.

Pesan AIMPACT, 21 Mei (UTC+8), menurut pemantauan Beating, menghadapi tantangan kemacetan jaringan struktural yang semakin serius dalam penyebaran terpisah model besar PD (Prefill-Decode), Zhipu, Yuxun Network, dan Universitas Tsinghua melakukan kolaborasi bersama dan mengusulkan serta menerapkan arsitektur jaringan ZCube di lingkungan produksi online GLM-5.1 coding dengan seribu GPU. Seiring dengan semakin umumnya konteks panjang dan inferensi PD terpisah, transmisi KV Cache antar node menyebabkan aliran inferensi menunjukkan karakteristik asimetris yang serius, sehingga arsitektur tradisional ROFT (Rail-Optimized Fat-Tree) mudah menyebabkan hotspot lokal dan konflik link. ZCube menghilangkan lapisan Spine switch, menggunakan topologi datar penuh (diameter jaringan 2 hop), serta menggabungkan mekanisme akses campuran single/multi-track, sehingga secara arsitektural mencapai keseimbangan beban lalu lintas antar seluruh switch antar node. Dalam pengujian benchmark pada kluster produksi nyata, dengan tetap mempertahankan GPU, stack perangkat lunak, dan aplikasi yang sama, arsitektur ZCube mengurangi biaya perangkat keras switch dan modul optik sebesar 33% dibandingkan arsitektur tradisional, sekaligus meningkatkan rata-rata throughput inferensi GPU sebesar 15%, serta menurunkan P99 latency Token Pertama (TTFT) sebesar 40,6%. (Sumber: BlockBeats)

Penafian: Informasi pada halaman ini mungkin telah diperoleh dari pihak ketiga dan tidak mencerminkan pandangan atau opini KuCoin. Konten ini disediakan hanya untuk tujuan informasi umum, tanpa representasi atau jaminan apa pun, dan tidak dapat ditafsirkan sebagai saran keuangan atau investasi. KuCoin tidak bertanggung jawab terhadap segala kesalahan atau kelalaian, atau hasil apa pun yang keluar dari penggunaan informasi ini. Berinvestasi di aset digital dapat berisiko. Harap mengevaluasi risiko produk dan toleransi risiko Anda secara cermat berdasarkan situasi keuangan Anda sendiri. Untuk informasi lebih lanjut, silakan lihat Ketentuan Penggunaan dan Pengungkapan Risiko.