Arsitektur ZCube Mengurangkan Kos dan Meningkatkan Prestasi dalam Inferens Model Besar

iconKuCoinFlash
Kongsi
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconRingkasan

expand icon
Peningkatan rangkaian ZCube menangani isu pemisahan PD dalam inferensi model besar, seperti dilaporkan dalam berita on-chain. Dikembangkan oleh ZhiPu, YuXun Network, dan Universiti Tsinghua, arsitektur ini kini beroperasi di GLM-5.1. Ia mengurangkan kos suis dan modul optik sebanyak 33%, meningkatkan throughput GPU sebanyak 15%, dan mengurangkan latensi P99 token pertama sebanyak 40.6%.

Pesan AIMPACT, 21 Mei (UTC+8), menurut pemantauan Beating, menghadapi masalah kemacetan jaringan struktural yang semakin serius dalam penyebaran terpisah model besar PD (Prefill-Decode), Zhipu, Yuxun Network, dan Universitas Tsinghua bekerja sama untuk mengembangkan dan menerapkan arsitektur jaringan ZCube di lingkungan produksi daring GLM-5.1 dengan seribu GPU. Seiring dengan meningkatnya penggunaan konteks panjang dan inferensi PD terpisah, transmisi KV Cache antar node menyebabkan karakteristik lalu lintas inferensi yang sangat tidak seimbang, sehingga arsitektur tradisional ROFT (Rail-Optimized Fat-Tree) mudah menyebabkan hotspot lokal dan konflik saluran. ZCube menghilangkan lapisan Spine switch, menggunakan topologi datar penuh (diameter jaringan 2 lompatan), serta menggabungkan mekanisme akses campuran single/multi-track, sehingga mencapai keseimbangan beban lalu lintas antar switch di seluruh jaringan pada tingkat arsitektur. Dalam pengujian benchmark pada kluster produksi nyata, dengan tetap mempertahankan GPU, stack perangkat lunak, dan aplikasi yang sama, arsitektur ZCube mengurangi biaya perangkat keras switch dan modul optik sebesar 33% dibandingkan arsitektur tradisional, sambil meningkatkan rata-rata throughput inferensi GPU sebesar 15% dan menurunkan P99 latensi Token pertama (TTFT) sebesar 40.6%. (Sumber: BlockBeats)

Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini. Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.