Perplexity AI membuka sumber pplx-garden untuk membolehkan inferens Multi-GPU berkelajuan tinggi
KuCoinFlash
Kongsi
Ringkasan
Perplexity AI telah membuka sumber toolkit inferensia berprestasi tinggi, pplx-garden, untuk meningkatkan pemprosesan multi-GPU. Toolkit ini termasuk pustaka komunikasi berasaskan Rust, fabric-lib, yang melepasi protokol NVIDIA dan menyokong bandwidth 400 Gbps melalui NVIDIA ConnectX-7 dan AWS EFA. Ia menampilkan pindahan data tanpa salinan dan algoritma yang dioptimakan untuk MoE, mengurangkan penggunaan CPU dalam tokenisasi. Kemas kini berita AI + kripto ini menonjolkan alat baharu untuk pembangun. Tren data inflasi mungkin mempengaruhi pelaburan infrastruktur AI masa depan.
ME AI Mesej, menurut pemantauan Beating, raksasa enjin carian Perplexity AI secara rasmi membuka sumber infrastruktur推理 berprestasi tinggi yang digunakan dalam persekitaran pengeluaran, pplx-garden. Inti projek ini ialah pustaka komunikasi titik-ke-titik berprestasi tinggi buatan sendiri berbasis Rust, fabric-lib (juga dikenali sebagai TransferEngine), yang bertujuan untuk memutuskan ikatan peranti terhadap protokol komunikasi eksklusif NVIDIA, membantu pembangun mencapai kelajuan tinggi dalam menjalankan model besar berparameter triliunan pada kluster GPU heterogen tanpa perlu membeli suis rangkaian eksklusif yang mahal. Inferens model besar terdistribusi tradisional sangat bergantung pada rangkaian komunikasi berkelajuan tinggi eksklusif NVIDIA, menyebabkan kos pemasangan peranti sangat tinggi dan menghadapi risiko penguncian rantaian bekalan. fabric-lib mencapai pemisahan peranti pada peringkat peranti keras, selain sesuai sepenuhnya dengan kad rangkaian NVIDIA ConnectX-7, ia juga menyokong asli kad Ethernet AWS EFA yang murah daripada Amazon, secara langsung meningkatkan bandwidth rangkaian antara GPU hingga 400 Gbps. Mengatasi kelemahan fizikal penghantaran tidak teratur pada AWS EFA, Perplexity mencipta mekanisme penyegerakan ImmCounter, yang membolehkan aliran data "tanpa salinan" yang cekap tanpa membuat andaian ketat mengenai urutan paket data. Pustaka komunikasi ini menyediakan algoritma pengagihan data yang direka khas untuk model pakar campuran MoE, yang menggabungkan penerimaan data oleh GPU dengan pengiraan matriks secara mendalam, memaksimakan ruang kuasa pengiraan pada peringkat dekod. Dalam penggunaan sebenar, manfaat kejuruteraan yang dibawa oleh pplx-garden sangat ketara. Dalam arsitektur inferens yang dipisahkan, pustaka rangkaian mencapai penjadualan pantas cache kunci-nilai antara nod Prefill dan nod Decoder. Dalam latihan pembelajaran penguatan asinkron, hanya memerlukan 1.3 saat untuk menyegerakkan dan menghantar semula bobot model berparameter triliunan. Untuk menyelesaikan latensi pengiraan pada peringkat tokenisasi, pplx-garden juga membuka sumber tokenizer pplx-unigram yang dibina semula menggunakan Rust, yang mengurangkan penggunaan CPU sebanyak 5 hingga 6 kali ganda, menghapuskan bottleneck prestasi pada peringkat tokenisasi untuk penyusunan semula dan model vektor. (Sumber: BlockBeats)
Penafian: Maklumat yang terdapat pada halaman ini mungkin telah diperoleh daripada pihak ketiga dan tidak semestinya menggambarkan pandangan atau pendapat KuCoin. Kandungan ini adalah disediakan bagi tujuan maklumat umum sahaja, tanpa sebarang perwakilan atau waranti dalam apa jua bentuk, dan juga tidak boleh ditafsirkan sebagai nasihat kewangan atau pelaburan. KuCoin tidak akan bertanggungjawab untuk sebarang kesilapan atau pengabaian, atau untuk sebarang akibat yang terhasil daripada penggunaan maklumat ini.
Pelaburan dalam aset digital boleh membawa risiko. Sila menilai risiko produk dan toleransi risiko anda dengan teliti berdasarkan keadaan kewangan anda sendiri. Untuk maklumat lanjut, sila rujuk kepada Terma Penggunaan dan Pendedahan Risiko kami.